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Introduction - Pourquoi devez-vous lire ce livre ? 


Introduction — Pourquoi devez-vous lire 
ce livre ? 


En 2019, Le Machine Learning est tout autour de nous. Il intervient 
chaque fois que nous cherchons un mot dans Google, une série sur Netflix, 
une vidéo sur YouTube, un produit sur Amazon. 


Grâce au Machine Learning, des millions de cancers peuvent être 
diagnostiqués chaque année, des milliards de spams et de virus 
informatiques sont bloqués pour protéger nos ordinateurs, et sans lui la 
voiture autonome n'existerait peut-être jamais. 


Pourtant le grand public, qui lui donne à tort le nom « Intelligence 
Artificielle >», en ignore presque tout. Et il est bien connu que l'Homme a 
peur de ce qu'il ne comprend pas. 


En lisant ce guide, je vous invite à un voyage qui va vous permettre de 
briser la glace avec l'Intelligence Artificielle et d'apprendre réellement une 
nouvelle compétence professionnelle : Le Machine Learning. 
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Introduction - Pourquoi devez-vous lire ce livre ? 


Après avoir lu ce guide, vous ferez partie des pionniers d'un nouveau 
monde, vous donnant accès à des opportunités professionnelles 
extraordinaires, et vous aurez développé votre capacité à résoudre des 
problèmes. 


Quel que soit votre métier (Ingénierie, Marketing, Finance, ou même 
artiste) ce livre vous sera utile, j'en suis convaincu. 


Data scientist : « le job le plus sexy du 21ème 
siècle » 


En 2012 prestigieuse « Harvard Business Review » a nommé le métier de data scientist comme « le job le plus sexy d 


ècle ». Rare pour cette revue de mettre « sexiest » dans un titre, on a donc cherché à savoir en épluchant l'article pourquoi 


data scientists avaient le vent en poupe 


Harvard Business Review, 2012 


Data Scientist Salaries in Paris, France Area 


Average Base Pay 


€48,000» E 


€48K €93K 


How much does a Data Scientist make in Paris, France? 


erage salary à ata Scien 4 ) n Pa France. Salaries e ate = 2cedi ol 


Salaire de base moyen pour un Data Scientist à Paris. Glassdoor, 2019. 
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Introduction - Pourquoi devez-vous lire ce livre ? 


Qui suis-je ? 


Je m'appelle Guillaume Saint-Cirgue et je suis ingénieur en Machine 
Learning au Royaume-Uni. 


J'exerce ce métier alors que, comme 
vous peut-être, je n'ai pas eu la 
chance de recevoir des cours 
d'Intelligence Artificielle au lycée, ni 
même dans les études supérieures. 


J'ai dû tout apprendre de moi-même, 
en investissant mon temps et mon 
argent dans des formations du MIT et 
de Stanford et en passant des week- 
end entiers à développer mes propres 
projets. 


Mais passionné par le Machine Learning, il n’a pas été difficile de laisser 
de côté les distractions pour me consacrer à mon développement 
personnel. 


A travers ce guide, je veux vous offrir ce que j'ai appris car le monde a 
urgemment besoin de se former en Intelligence Artificielle. 


Que vous souhaitiez changer de vie, de carrière, ou bien développer vos 
compétences à résoudre des problèmes, ce livre vous y aidera. 


C'est votre tour de passer à l’action ! 


Ce que vous allez apprendre dans les 7 prochains 
jours 

J'ai écrit ce livre en 7 chapitres qui retracent le cheminement naturel et 
logique pour apprendre le Machine Learning sans aucun prérequis. 


Je vous invite à lire un chapitre par jour, ce qui ne vous prendra pas plus 
d'une demi-heure par jour. 


Pour chaque chapitre, je me suis inspiré des meilleures formations qui 
existent à ce jour (parfois payantes) et que j'ai pu suivre (Stanford, MIT, 
UCL, ...). 
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Introduction - Pourquoi devez-vous lire ce livre ? 


Jour 1 : Les fondations du Machine Learning 

Jour 2 : La Régression Linéaire 

Jour 3 : Votre premier programme de Machine Learning 

Jour 4 : La Régression Logistique et les Algorithmes de Classification 
Jour 5 : Les Réseaux de Neurones 

Jour 6 : Unsupervised Learning 


Jour 7 : Comment gérer un projet de Machine Learning 


En avant pour ce Voyage qui changera peut-être votre vie comme il a pu 
changer la mienne ! 
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Chapitre 1 : Les 


fondations du Machine 


Learning 


Dans ce premier chapitre, nous allons voir : 


Pourquoi le Machine Learning est vraiment utile 

La définition du Machine Learning 

Les 3 méthodes d'apprentissage 

Les 2 applications les plus courantes en Machine Learning 


Les 4 notions clefs qui s'appliquent à tout le Machine Learning 


Chapitre 1 : Les fondations du Machine Learning 


Comprendre pourquoi le Machine Learning est 
utilisé 


Pour comprendre au mieux ce qu'est le Machine Learning et comment cela 
fonctionne, il faut commencer par comprendre pourquoi il est utilisé. 


Nous, les êtres humains, sommes quotidiennement confronté à des 
problèmes que nous cherchons à résoudre. Par exemple : Comment 
construire un pont plus solide ? Comment augmenter nos bénéfices ? 
Comment éliminer le cancer ? Ou tout simplement quelle route emprunter 
pour aller au travail ? 


Pour nous aider dans nos recherches, nous avons inventé l'ordinateur, 
qui permet de résoudre en quelques minutes des calculs qui nous 
prendraient des millions d'années à effectuer. Mais il faut savoir qu'un 
ordinateur ne sait en réalité faire qu'une chose : résoudre les calculs 
qu'on lui donne. 
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Chapitre 1 : Les fondations du Machine Learning 


À partir de là, 2 situations possibles : 


1. On connait le calcul à effectuer pour résoudre notre problème. 


Dans ce cas, facile ! On entre ce calcul dans l'ordinateur, c'est 
ce qu'on appelle la programmation, et l'ordinateur nous 
donne le résultat. 


Exemple : 
e Déterminer la structure d'un pont 


2. On ne connait pas le calcul qui résout notre problème 


Dans ce cas... on est bloqué. Impossible de donner à un 
ordinateur un calcul que nous ne connaissons pas. 


C'est comme vouloir poster une lettre que nous 
n'aurions pas écrite. 


Exemples : 

e Reconnaitre un visage sur une photo 
e Prédire le cours de la Bourse 

e Eliminer le cancer 

e Composer de la musique 

e Conduire une voiture 


Doit-on donc perdre tout espoir de voir un jour un ordinateur nous aider 
dans la lutte contre le cancer ? 


Bien sûr que non ! Le Machine Learning a justement été inventé pour 
venir débloquer la situation 2 (quand on ne connait pas le calcul) en 
utilisant une technique audacieuse, que je vais vous dévoiler tout de 
suite. 
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Chapitre 1 : Les fondations du Machine Learning 


Laisser la Machine apprendre à partir 
d'expériences 


Le Machine Learning consiste à laisser l'ordinateur apprendre quel calcul 
effectuer, plutôt que de lui donner ce calcul (c'est-à-dire le programmer 
de façon explicite). 


C'est en tout cas la définition du Machine Learning selon son inventeur 
Arthur Samuel, un mathématicien américain qui a développé un 
programme pouvant apprendre tout seul comment jouer aux Dames en 
1959. 


y T “Machine Learning is the science of 
getting computers to learn without 


being explicitly programmed.” 
Arthur Samuel, 1959. 


Un autre américain du nom de Tom Mitchell donna en 1998 une définition 
un peu plus moderne du Machine Learning en énonçant qu'une machine 
apprend quand sa performance à faire une certaine tâche s'améliore avec 
de nouvelles expériences. 


Mais comment apprendre ? 


Pour donner à un ordinateur la capacité d'apprendre, on utilise des 
méthodes d'apprentissage qui sont fortement inspirées de la façon 
dont nous, les êtres humains, apprenons à faire des choses. Parmi ces 
méthodes, on compte : 


e L'apprentissage supervisé (Supervised Learning) 

e L'apprentissage non supervisé (Unsupervised Learning) 

e L'apprentissage par renforcement (Reinforcement 
Learning) 


Voyons dès à présent ce qu'est l'apprentissage supervisé, qui est la 
méthode la plus utilisée en Machine Learning. 
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Chapitre 1 : Les fondations du Machine Learning 


L'Apprentissage Supervisé 


Imaginez que vous commenciez à apprendre le chinois. 


Pour ce faire, il vous faudra soit acheter un livre de traduction chinois- 
français, ou bien trouver un professeur de chinois. 


39) 


CHIEN 


© 


Le rôle du professeur ou du livre de traduction sera de superviser votre 
apprentissage en vous fournissant des exemples de traductions français- 
chinois que vous devrez mémoriser. 


On parle ainsi d'apprentissage supervisé lorsque l’on fournit à une 
machine beaucoup d'exemples qu'elle doit étudier. 


Pour maîtriser l'apprentissage supervisé, il faut absolument comprendre 
et connaitre les 4 notions suivantes : 


e Le Dataset 

e Le Modèle et ses paramètres 
e La Fonction Coût 

e L'Algorithme d'apprentissage 


Notion 1 : Apprendre à partir d'exemples (Dataset) 
Comme pour apprendre la langue chinoise, on parle d'apprentissage 


supervisé lorsque l'on fournit à une machine beaucoup d'exemples (x, y) 
dans le but de lui faire apprendre la relation qui relie x à y. 


X mn ë Y 


CHIEN m) #0] 
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Chapitre 1 : Les fondations du Machine Learning 


En Machine Learning, on compile ces exemples (x, y) dans un tableau 
que l'on appelle Dataset : 


e La variable y porte le nom de target (la cible). C'est la 
valeur que l'on cherche à prédire. 


e La variable x porte le nom de feature (facteur). Un facteur 
influence la valeur de y, et on a en général beaucoup de 
features (x4, x2, ...) dans notre Dataset que l’on regroupe 
dans une matrice X. 


Ci-dessous, un Dataset qui regroupe des exemples d'appartements avec 
leur prix y ainsi que certaines de leurs caractéristiques (features). 


Target Features 
X1 X2 X3 


y 
| Prix | Surface m2 |N chambres| Qualité | 


e sooo co 1 | 2 
€ 490,000.00] s| 2 | 1 | 
€ 335,000.00] 125| 2 | 2 | 


Ce Dataset, 99.9% des gens se contentent de l'analyser dans Excel. La 
bonne nouvelle, c'est que vous ferez bientôt partie des 0.1% de gens qui 
peuvent faire du Machine Learning avec ça ! 
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Chapitre 1 : Les fondations du Machine Learning 


Notion 2 : Développer un modèle à partir du Dataset 


En Machine Learning, on développe un modèle à partir de ce Dataset. Il 
peut s'agir d'un modèle linéaire comme vous pouvez le voir à gauche, ou 
bien un modèle non-linéaire comme vous pouvez le voir à droite. Nous 
verrons dans ce livre comment choisir un modèle plutôt qu'un autre. 


> 
mn 4 Loic “= moki R i 
Los TETA [eye aas ba +C 
+ 


On définit a,b,c, etc. comme étant les paramètres d'un modèle. 


Notion 3 : Les erreurs de notre modèle - la Fonction 
Coût 


Autre chose à noter est qu'un modèle nous retourne des erreurs par 
rapport à notre Dataset. On appelle Fonction Coût l'ensemble de ces 
erreurs (le plus souvent on prend la moyenne quadratique des erreurs 
comme dans le chapitre 2). 


d 


Linas 


Cum cal : p ka NULS . 
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Chapitre 1 : Les fondations du Machine Learning 


Allons droit au but : Avoir un bon modèle, c'est avoir un modèle qui nous 
donne de petites erreurs, donc une petite Fonction Coût. 


> 
greder Let ns 


pebbs eff 


` 
—+ Aon pA — Mmouvais "R 
© | 
.e 


M 


Notion 4 : Apprendre, c'est minimiser la Fonction Coût 


Ainsi l'objectif central en Supervised Learning, c'est de trouver les 
parametres du modèle qui minimisent la Fonction Coût. Pour cela, on 
utilise un algorithme d'apprentissage, l'exemple le plus courant étant 
l'algorithme de Gradient Descent, que vous apprendrez dans le chapitre 
2, 


Les applications du Supervised Learning 
Avec le Supervised Learning on peut développer des modèles pour 
résoudre 2 types de problèmes : 


e Les problèmes de Régression 
e Les problèmes de Classification 


Dans les problèmes de régression, on cherche à prédire la valeur d'une 
variable continue, c'est-à-dire une variable qui peut prendre une infinité 
de valeurs. Par exemple : 


e Prédire le prix d'un appartement (y) selon sa surface 
habitable (x) 
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Chapitre 1 : Les fondations du Machine Learning 


e Prédire la quantité d'essence consommée (y) selon la 
distance parcourue (x) 


Dans un problème de classification, on cherche à classer un objet dans 
différentes classes, c'est-à-dire que l'on cherche à prédire la valeur d'une 
Variable discrète (qui ne prend qu’un nombre fini de valeurs). Par 
exemple : 


e Prédire si un email est un spam (classe y = 1) ou non 
(classe y = 0) selon le nombre de liens présent dans l'email 
(x) 

e Prédire si une tumeur est maligne (y = 1) ou bénigne (y = 
0) selon la taille de la tumeur (x1) et l’âge du patient (x2) 


Dans le cas d’un problème de classification, on représente souvent les 
classes par des symboles, plutôt que par leur valeur numérique (0, 1, ...) 


Régression ty Classification 
si au 
O0 O O maly 

O O 

O 
xx 90 
x x 9 x 
Oo 
xx x O 


Mais tout ça, on peut le faire dans Excel ? 


A ce stade, vous pourriez penser que calculer le prix d'un appartement 
selon sa surface habitable, tout le monde peut le faire dans Excel (Il 
existe même la fonction Régression dans Excel). 


La force du Machine Learning, c'est qu'il est très facile de développer des 
modèles très complexes qui peuvent analyser des milliers de features (x) 
qu'un être humain ne serait pas capable de prendre en compte pour 
faire son calcul (et Excel non plus). 
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Chapitre 1 : Les fondations du Machine Learning 


Par exemple, pour prédire le prix d'un appartement (y), un modèle de 
Machine Learning peut prendre en compte : 


e sa surface (x1) 

e sa localisation (x2) 

e sa qualité (x3) 

e sa proximité avec un parc (x4) 
e etc. 


De même, pour prédire si un email est un spam (y), le Machine Learning 
peut analyser : 


e le nombre de liens (x1) 
e le nombre de fautes d'orthographe (x) 
e etc. 


Plus il y a de features disponibles, plus il existe d'informations pour que le 
modèle prenne des décisions ‘intelligentes’, c'est l'intelligence artificielle. 


Autres méthodes d'apprentissage 


Vous connaissez désormais l'apprentissage supervisé, qui s'inspire de la 
façon dont nous, les êtres humains, pourrions apprendre une langue 
comme le chinois en étudiant à l’aide d'un bouquin les associations 
français > chinois (x > y). 


Pourtant, si vous vous perdez, seul, en Chine, sans bouquin, sans 
traducteur, il existe tout de même une méthode pour apprendre le 
chinois. C'est l'apprentissage non-supervisé, et je vous dévoilerai 
comment réussir cet exploit dans le chapitre 6. 


Finalement, une 3ème méthode d'apprentissage assez populaire en 
robotique est l'apprentissage par renforcement. 


Cette dernière méthode s'inspire de la façon dont nous éduquons nos 
animaux de compagnie, en leur offrant une friandise quand ils font une 
bonne action. Cette méthode étant mathématiquement plus avancée que 
les deux premières, je n’en parlerai pas dans ce livre, mais je vous invite 
à lire mon site si vous souhaitez en savoir plus ! 
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Chapitre 1 : Les fondations du Machine Learning 


Les 4 notions clefs du Machine Learning que vous 
devez absolument retenir 


Le Machine Learning est un domaine vaste et complexe, et de mon 
expérience les gens perdent parfois de vue l'essentiel, même en suivant 
des formations payantes. 


Pour sortir du lot, il faut avoir les idées claires sur les bases du Machine 
Learning. Vous devez ainsi retenir 4 notions essentielles, et vous verrez 
qu'elles vous suivront dans tous vos projets de Machine Learning. 


1. Le Dataset 


En Machine Learning, tout démarre d'un Dataset qui contient nos 
données. Dans l'apprentissage supervisé, le Dataset contient les 
questions (x) et les réponses (y) au problème que la machine doit 
résoudre. 


2. Le modèle et ses paramètres 


A partir de ce Dataset, on crée un modèle, qui n'est autre qu'une 
fonction mathématique. Les coefficients de cette fonction sont les 
paramètres du modèle. 


3. La Fonction Coût 


Lorsqu'on teste notre modèle sur le Dataset, celui-ci nous donne des 
erreurs. L'ensemble de ces erreurs, c'est ce qu'on appelle la Fonction 
Coût. 


4. L’Algorithme d'apprentissage 


L'idée centrale du Machine Learning, c'est de laisser la machine trouver 
quels sont les paramètres de notre modèle qui minimisent la Fonction 
Coût. 
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Chapitre 2 : La 
Régression Linéaire 


Il est temps de mettre en pratique les concepts que vous avez appris. A 
travers l'exemple de la Régression Linéaire, vous allez mieux 
comprendre les notions de : 


e Dataset 

e Modèle 

e Fonction Coût 

e Gradient Descent 


Chapitre 2 : La Régression Linéaire 


Petit rappel : Apprentissage Supervisé et 
problème de Régression 


Si vous cherchez à prédire le cours de la bourse, le prix d’un 
appartement, ou bien l'évolution de la température sur Terre, alors vous 
cherchez en fait à résoudre un problème de régression. 


Si vous disposez d'un Dataset (x, y) alors vous pouvez utiliser 
l'apprentissage supervisé pour développer un modèle de régression. 
Dans ce chapitre je vais vous montrer comment développer votre premier 
modèle de Machine Learning ! 


Apprenez votre premier modèle linéaire 


Voici la recette à suivre pour réaliser votre premier modèle de Machine 
Learning. 


1. Récolter vos données 


Imaginez que plusieurs agences immobilières vous aient fourni des 
données sur des appartements à vendre, notamment le prix de 
l'appartement (y) et la surface habitable (x). En Machine Learning, on dit 
que vous disposez de m exemples d'appartements. 


On désigne : 
x la surface habitable de l'exemple i 
y® le prix de l'exemple i 


En visualisant votre Dataset, vous obtenez le nuage de points suivant : 
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Chapitre 2 : La Régression Linéaire 


2.Créer un modèle linéaire 


A partir de ces données, on développe un modèle linéaire f(x) = ax + b 
où a et b sont les parametres du modèle. 


Un bon modèle donne de petites erreurs entre ses prédictions f(x) et les 
exemples (y) du Dataset. 


Nous ne connaissons pas les valeurs des paramètres a et b, ce sera le 
rôle de la machine de les trouver, de sorte à tracer un modèle qui s'insère 
bien dans notre nuage de point comme ci-dessous : 


loaa +4 
LL s I 


3. Définir La Fonction Coût 


Pour la régression linéaire, on utilise la norme euclidienne pour mesurer 
les erreurs entre f(x) et (y). 


Concrètement, voici la formule pour exprimer l'erreur i entre le prix y® 
et la prédiction faites en utilisant la surface x® : 


erreur® = (f(x®) — y® y 
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Par exemple, imaginez que le 10i°"° exemple de votre Dataset soit un 
appartement de x (1% = 80 m? dont le prix s'élève à y (1 = 100,000 € et 
que votre modèle prédise un prix de f(x 100,002 €. L'erreur pour 
cette exemple est donc : 


erreurU0) = (f(x40) — 40) 7 
erreur (10) = (100,002 — 100,000 )? 
erreur (0) = (2)? 

erreur (0) = 4 


Chaque prédiction s'accompagne d'une erreur, on a donc m erreurs. 


On définit la Fonction Coût J(a, b) comme étant la moyenne de toutes 
les erreurs : 


m 

1 . 

J(a, b) = i erreur! 
i= 


Note : En français, cette fonction a un nom : c'est l'erreur quadratique 
moyenne (Mean Squared Error) 


Ga) 


m , PR 
Ses ( W A (©) 
DR -i +274 ) 

CS | 


du 
Em ei 
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4,Trouver les paramètres qui minimisent la Fonction 
Coût 
La prochaine étape est l'étape la plus excitante, il s'agit de laisser la 


machine apprendre quels sont les paramètres qui minimisent la Fonction 
Coût, c'est-à-dire les paramètres qui nous donnent le meilleur modèle. 


Pour trouver le minimum, on utilise un algorithme d'optimisation qui 
s'appelle Gradient Descent (la descente de gradient). 


Comprendre le Gradient Descent (la descente de gradient) 


Imaginez-vous perdu en montagne. Votre but est de rejoindre le refuge 
qui se trouve au point le plus bas de la vallée. Vous n'avez pas pris de 
carte avec vous donc vous ne connaissez pas les coordonnées de ce 
refuge, vous devez le trouver tout seul. 


Pour vous en sortir, Voici une stratégie à adopter : 


1. Depuis votre position actuelle, vous partez en direction de là où la 
pente descend le plus fort. 

2. Vous avancez une certaine distance en suivant cette direction 
coûte que coûte (même si ça implique de remonter une pente) 

3. Une fois cette distance parcourue, vous répétez les 2 premières 
opérations en boucle, jusqu'à atteindre le point le plus bas de la 
vallée. 
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= 
ED ED ŸN_ 
Etape 1: Trouver la pente la Etape 2: Marcher une certaine Etape 3: Répéter les étapes 1 
plus forte distance dans cette direction et 2 en boucle 


Les étapes 1, 2 et 3 forment ce qu'on appelle l'algorithme de Gradient 
Descent. 


Cet algorithme vous permet de trouver le minimum de la Fonction Coût 
J(a,b) (le point le plus bas de la montagne) en partant de coordonnées a 
et b aléatoires (votre position initiale dans la montagne) : 


1. Calculer la pente de la Fonction Coût, c'est-à-dire la dérivée de 
J(a, b). 

2. Evoluer d'une certaine distance x dans la direction de la pente la 
plus forte. Cela a pour résultat de modifier les paramètres a et b 

3. Recommencer les étapes 1 et 2 jusqu'à atteindre le minimum de 
J(a, b). 


Pour illustrer l'algorithme, voyez le dessin ci-dessous, où je montre la 
recherche du paramètre a idéal (la même chose s'applique au paramètre 


b) 
y n tape 4: Cloud, À dicn 
& 
il tded > 
o pt marclec ane disfoncs s. 
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Revenons à nos moutons : Comment utiliser l'algorithme de 
Gradient Descent 


Pour rappel, nous avons jusqu'à présent créé un Dataset, développé un 
modèle aux paramètres inconnus, et exprimé la Fonction Coût /(a, b) 
associée à ce modèle. 


Notre objectif final : Trouver les paramètres a et b qui minimisent /(a,b). 


Pour cela, nous allons choisir a et b au hasard (nous allons nous perdre 
en montagne) puis allons utiliser en boucle la descente de gradient pour 
mettre à jour nos paramètres dans la direction de la Fonction Coût la plus 
faible. 


Répeter en boucle: 
ð J(a, b) 
ða 


ð J (a,b) 
0 b 


b=b-x 


Je vous explique : à chaque itération de cette boucle, les paramètres a et 
b sont mis à jour en soustrayant leur propre valeur à la valeur de la 
0 J(a,b) 


pente D multipliée par la distance à parcourir x. On appelle œ la 


vitesse d'apprentissage (Learning rate). 


Si la vitesse est trop lente, le modèle peut mettre longtemps à être 
entraîné, mais si la vitesse est trop grande, alors la distance parcourue 
est trop longue et le modèle peut ne jamais converger. Il est important de 
trouver un juste milieu. Le dessin ci-dessous illustre mes propos. 


3 (e) pont de départ 
| 


pl x 
| 


> 


© 
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Chapitre 2 : La Régression Linéaire 


Une fois cet algorithme programmé, vous allez vivre le moment le plus 
excitant de votre vie de Data Scientist : voir votre première intelligence 
artificielle apprendre à prédire le prix d'un appartement selon sa 
surface habitable. Vous verrez comme ci-dessous que votre algorithme 
arrive à minimiser la Fonction Coût avec le nombre d'itérations. 


100 Dataset 
— modele 


-0,5 > 
1000 2000 3000 4000 -1000 -500 0 500 1000 1500 2000 
Surface (x) b 


A partir de là, c'est la porte ouverte aux algorithmes qui automatisent les 
transactions immobilières, et le même concept que celui que vous venez 
d'apprendre sera appliqué pour apprendre à une machine comment 
reconnaitre un visage sur une photo, comment prédire le cours de la 
bourse, etc. 


Mais avant de voir la magie s'opérer, il faut avoir préalablement calculer 
les dérivées partielles de la Fonction Coût. 


Calcul des dérivées partielles 


Pour implémenter l'algorithme de Gradient Descent, il faut donc calculer 
les dérivées partielles de la Fonction Coût. Rappelez-vous qu'en 
mathématique, la dérivée d'une fonction en un point nous donne la valeur 
de sa pente en ce point. 


Fonction Coût : 


1 | | 
J(a, b) = D) ax +b — y® y 
i=1 
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Dérivée selon le paramètre a : 


ð Ja, b) 


m 
1 J | , | 
ða m = 


Dérivée selon le paramètre b : 


aJa b) 1* | | 
_ () — yÒ 
Jb mo ax} + b y} ) 
Note : 


Surtout ne soyez pas impressionnés par ces formules mathématiques ! Il 
s'agit simplement de la dérivée d'une fonction composée : 


(g of) =f xg of 
Avec : f =ax+b -y et g = (f)? 


Z ou z A "= š 1 š 
En dérivant, le carré tombe et se simplifie avec la fraction z; pour devenir 


— et x® apparait en facteur pour la dérivée par rapport à a. 


z- CET 


Utilisation des matrices et des vecteurs 


Dans la pratique, on exprime notre Dataset et nos paramètres sous forme 
matricielle, ce qui simplifie beaucoup les calculs. On créer ainsi un 
vecteur 0 = (2) e R"*1 qui contient tous les paramètres pour notre 
modèle, un vecteur y € R”*1 et une matrice X € R”** qui inclut toutes 
les features n. Dans la régression linéaire, n = 1. 


AU cas où vous seriez rouillé en algèbre : une matrice R”*?, c'est comme 
un tableau avec m lignes et n colonnes. 
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Chapitre 2 : La Régression Linéaire 


Résumé des étapes pour développer un 
programme de Régression Linéaire 
La recette de la régression linéaire : 

1. Récolter des données (X, y) avec X,y € R"*1 

2. Donner à la machine un modèle linéaire F(X) = X.8 où 0 = (}) 
3. Créer la Fonction Coût J(8) = — X(F(X) - y )? 
4 


. Calculer le gradient et utiliser l'algorithme de Gradient Descent 


Répeter en boucle: 


ðJ) 1 
080 m 


Gradient: XT.(F(X)—Y) 


Le Learning rate a prend le nom d’hyper-paramètre de par son influence 


sur la performance finale du modèle (s'il est trop grand où trop petit, la 
fonction le Gradient Descent ne converge pas). 


Dans le prochain chapitre, vous allez apprendre à programmer votre 
premier algorithme de Machine Learning en utilisant Python. 
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Chapitre 3 : Adieu 
Excel, bonjour Python. 
Vous voilà Data 
Scientist ! 


Fini la théorie, il est temps de passer à l'action ! 


Dans ce chapitre, vous allez apprendre à écrire de vrais programmes de 
Machine Learning en utilisant Python et le module Sklearn. 


Spécifiquement pour ce chapitre, vous allez écrire un programme de 
Régression Linéaire à plusieurs variables et vous apprendrez 
comment facilement modifier votre code pour faire des Régressions 
polynômiales. 


Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


Installer Python Anaconda : le meilleur outil de 
Machine Learning 


Il existe deux façons d'installer les outils de Machine Learning sur votre 
ordinateur : La bonne et la mauvaise. 


© ANACONDA. 


En installant Anaconda, vous vous épargnez des heures de souffrance à 
taper des commandes en mode ‘geek’ à installer les packages, librairies et 
éditeur de texte indispensables pour faire du Machine Learning. 


Pourquoi faire simple quand on peut faire compliqué ? 


3 D ANACONDA | b 


Autres méthodes 


xl” 
aoar 


Anaconda contient tous les outils et librairies dont vous avez besoin pour 
faire du Machine Learning : Numpy, Matplotlib, Sklearn, etc. 


Commencez par télécharger puis installer Anaconda depuis le site officiel : 
https://www.anaconda.com/distribution/#download-section 


Note: Téléchargez toujours la version la plus récente de Python (ici 
Python 3.7) 


ES windows | @é macos | Ô Linux 


Anaconda 2019.03 for macOS Installer 


Python 3.7 version Python 2.7 version 


Download Download 


64-Bit Graphical Installer (637 MB) 64-Bit Graphical Installer (624 MB) 
64-Bit Command Line Installer (542 MB) 64-Bit Command Line Installer (530 MB ) 


30 
Tous droits réservés © 2019 Guillaume Saint-Cirgue 


machinelearnia.com 


Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


Pour plus d'information, je vous montre ici en vidéo comment vous y 
prendre pour installer Anaconda et comment vous en servir. 


Une fois Anaconda installé, vous pouvez lancer l'application Jupyter 
Notebook depuis votre barre de recherche Windows/Mac/Linux. 


Best match 


#** Jupyter Notebook 
re Desktop app 


jupyter 


Utilisation de Jupyter Notebook pour vos projets 


Jupyter Notebook est une application Web qui permet de créer et de 
partager des codes Python. 


7 Jupyter 


Note : C'est une application Web, mais il n'est pas nécessaire d’avoir une 
connexion Internet pour vous servir de Jupyter. Aussi, vos données/codes 
ne sont à aucun moment stockés sur Internet (ce n'est pas du Cloud). 


Lorsque vous démarrez Jupyter, il est possible que 2 fenêtres s'ouvrent, 
auquel cas ne vous occupez pas de la fenêtre noire (la console) et surtout 
ne la fermez pas (ceci déconnecterait Jupyter de votre disque dur). 


Cliquez sur ‘New’ 
E t pour écrire un 
— Jupyter nouveau programme 


Quit ogou 
Files Running Clusters 
Select tems to perform actions on them. Upload z 


00 ~ w Name # LastModified | File size 
O D Contads a month ago 
D Desktop 16 minutes ago 
O O Documents a monin ago 

O Downloads 2 hours ago 


D Favorites 16 minutes ago 


Fenêtre D'acceuil de Jupyter. Vous y Ne vous occupez pas 
trouvez les fichiers stockés sur votre de cette fenêtre. Ne la 
disque dur. fermez surtout pas! 
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La fenêtre principale de Jupyter n'est ni plus ni moins qu'un explorateur 
de fichier relié à votre disque dur, vous pouvez ouvrir tous vos fichiers, 
Dataset, codes, etc. depuis cette fenêtre. 


Cliquez sur le bouton ‘New’ situé en haut à droite de cette fenêtre pour 
commencer à écrire un nouveau programme (puis cliquez sur Python 3). 


La fenêtre suivante s'affiche alors : Vous êtes prêts à coder ! 


5 Jupyter Untitled6 Last Checkpoint: a few seconds ago (unsaved changes) à Logout 
File Edit View Inset Cell  Kemel Widgets Help Trusted Python 3 O 


A + xa 4 +) ARN M C D Code = 


| In [ ]: 


Apprenez la programmation en 15 minutes 


Il est possible que certains d'entre vous n'aient jamais écrit de 
programme de leur vie, alors je vais vous expliquer à ma façon comment 
comprendre le monde de la programmation en moins de 15 minutes. 


La programmation : une nouvelle vision du monde 


En programmation, on choisit d'adopter une certaine vision du monde 
dans lequel nous vivons. On peut considérer que le monde peut être 
modélisé à partir de 2 concepts : 


e Des objets 
e Des actions, qui modifient l'état des objets. 


Regardez autour de vous. Vous êtes entourés d'objets. En réalisant une 
action, des objets peuvent apparaitre, disparaitre, se combiner, se 
transformer, etc. 


D'ailleurs, quand nous nous exprimons, il est nécessaire et suffisant de 
dire un nom (objet) et un verbe (action) pour faire une phrase. 


« Le chien boit. » ou bien « Le chien boit de l'eau. » 
Chien : Objet 
Boit : Action 


Eau : Objet, qui diminue avec l’action boire. 
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En programmation, ces deux notions prennent le nom de variable et de 
fonction, les fonctions transformant la valeur des variables. 


Input ; = Output 
Variable Pumetiani Variable 
Eau chaude 
Mélanger E) Café 
Café soluble 
A=2 
AxB = C=6 
B=3 


Le plus souvent, il n’est pas nécessaire de développer ses propres 
fonctions car celles-ci sont déjà développées dans des librairies open 
source. 


Par exemple, la librairie Sklearn contient toutes les fonctions 
mathématiques et l'algorithme de Gradient Descent que nous avons 
appris dans le Chapitre 2 ! En pratique, il est donc inutile d'écrire la 
moindre équation mathématique. Génial, non ?! 


Au fil des exemples dans ce livre, vous allez naturellement apprendre 
comment programmer en Python spécialement pour le Machine Learning. 
Mon but est de vous épargner une avalanche de détails inutiles que vous 
pourriez trouver dans une formation classique, pour vous montrer les 
fonctions essentielles et utiles qui vous aideront réellement à résoudre 
des problèmes dans votre travail après la lecture de ce livre. 


Si toute fois vous désirez apprendre Python plus en profondeur, Internet 
regorge de formations gratuites et... ah oui j'oubliais : il y a ma chaine 
YouTube aussi ! © 
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Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


Les bases de Python 


1. Les commentaires 


Dans tout langage de programmation, il est possible d'écrire des 
commentaires. Un commentaire n'est pas lu par la machine et vous 
pouvez donc y écrire ce que vous voulez pour documenter votre code. 


Dans Python, il suffit de précéder votre code du symbole « # » pour le 
transformer en commentaire. 


E; ceci est un commentaire 


2. Les variables 


Pour définir une variable dans Jupyter, il suffit de lui donner un nom et de 
lui assigner une valeur. Par exemple, vous pouvez choisir de créer la 
variable « vitesse » et de lui assigner la valeur 90. 


Note : les accents et chiffres sont à bannir pour le nom d'une variable ! 


Vous pouvez effectuer des opérations mathématiques entre les variables 
numériques. 


Une fois le code écrit, appuyez sur CTRL + Entrée pour exécuter votre 
code. Le résultat est affiché et une nouvelle cellule s'ouvre en bas pour 
continuer à écrire du code. 


In [1]: vitesse = 90 # vitesse en km/h 
distance = 180 # distance en km 
temps = distance / vitesse #temps du trajet en heures 


temps # afficher la valeur temps 


Outfil: 2.0 


Il existe de nombreux types de variables : les variables numériques, les 
listes, les matrices, les chaines de caractères... 
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Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


3. Les fonctions 


Comme énoncé plus haut, Python contient déjà de nombreuses librairies 
remplies de fonctions très utiles et il n’est pas nécessaire de coder ses 
propres fonctions pour faire du Machine Learning. 


Cependant, je vais tout de même vous montrer la structure d’une fonction 
dans Python, pour votre connaissance personnelle. Vous êtes libres de 
passer directement à la page suivante si l'envie vous prend. 


Rappelez-vous qu'une fonction transforme le plus souvent une entrée en 
sortie : 


Input ; Output 
Variable FRRENON Variable 


Pour créer une fonction dans Python, il faut commencer par écrire 
« def » en début de ligne, puis donner un nom à la fonction, écrire les 
inputs entre parenthèse, et finir la ligne par un « : ». 


Les lignes suivantes font partie de la fonction, vous pouvez y écrire des 
commentaires, créer de nouvelles variables, faire des opérations 
mathématiques etc. 


La fonction s'arrête à la ligne « return » qui indique quelle sortie la 
fonction doit produire. 


Une fois la fonction créée, il est possible de l'utiliser à l'infini ! 


Exemple : 
In [2]: def distance freinage (vitesse): 
# cette fonction calcul la distance d'arret en metres 
# en fonction de la vitesse a laquelle la voiture roule 
arret = vitesse * 3 / 10 #arret est une variable numérique 
return arret 
In [3]: distance freinage (45) 


OùUEE31: 13.5 


Ta f 1: 


Voyons maintenant les principales librairies qui contiendront les fonctions 
à connaitre pour faire du Machine Learning comme un pro ! 
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Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


4, Les 4 librairies à maîtriser pour le Machine Learning 


Pour importer une librairie dans Python, rien de plus simple. Il suffit 
d'écrire le nom de la librairie précédé de « import » en tête de votre 
programme. Il est également possible d'importer certaines fonctions de 
librairie en écrivant from « librairie » import <« truc ». 


Exemple : 


In [4]: import numpy as np 
from sklearn.datasets import make regression 


In [ ]: 


Numpy est la librairie qui permet de créer et manipuler des matrices 
simplement et avec efficacité. 


En Machine Learning, on insère le plus souvent notre Dataset dans des 
matrices. Ainsi le calcul matriciel représente l'essentiel du Machine 


la 


Learning. Il est important de le comprendre, mais les fonctions présentes 


dans Numpy font les calculs matriciels à notre place... Magique ! 


* matplotlib 
Matplotlib est la librairie qui permet de visualiser nos Datasets, nos 


fonctions, nos résultats sous forme de graphes, courbes et nuages de 
points. 
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Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


ee. 


Sklearn est la librairie qui contient toutes les fonctions de l'état de l'art 
du Machine Learning. On y trouve les algorithmes les plus 
importants ainsi que diverses fonctions de pre-processing. 


pandas Hd 


Pandas est une excellente librairie pour importer vos tableaux Excel (et 
autres formats) dans Python dans le but de tirer des statistiques et de 
charger votre Dataset dans Sklearn. 


5. Et tout ce dont je n'ai pas parlé 


Dans cette introduction à Python, je n'ai pas parlé des boucles for et 
while. Je n'ai pas parlé des conditions if elif else et j'ai omis d'introduire 
d'autres commandes de bases comme « print(‘hello world”) ». 


Ces codes sont bien évidemment importants, mais ils ne sont pas 
essentiels à la compréhension et à l'apprentissage du Machine Learning 
pour ce livre. 


Je vous invite à consulter ma chaine YouTube si vous désirez compléter 
vos bases en Python. © 
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Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


Développer enfin votre premier programme de 
Machine Learning 


Fini de rigoler, il est temps de passer à l’action ! Vous allez maintenant 
développer un programme de régression linéaire en suivant la méthode 
apprise dans le chapitre 2. 


Les étapes pour programmer une Régression Linéaire 


Etape 1 : Importer les librairies 


Commençons par ouvrir un nouveau Notebook dans Jupyter comme nous 
l'avons appris précédemment. Ensuite, il faut importer les librairies et 
fonctions suivantes : 


e Numpy pour manipuler notre Dataset en tant que matrice 

e Matplotlib.pyplot pour visualiser nos données 

e La fonction make_regression de Sklearn pour générer 
un nuage de point (ici on va simuler des données) 


e SGDRegressor (qui signifie Stochastic Gradient Descent 
Regressor) et qui contient le calcul de la Fonction Coût, 
des gradients, de l'algorithme de minimisation, bref... 
tout ce qui pouvait sembler compliqué dans le chapitre 2. 


import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.datasets import make_regression 
from sklearn.linear_model import SGDRegressor 


N'oubliez pas de taper CTRL + Entrée pour exécuter votre code. S'il y a 
une erreur, réviser vos compétences du copier/coller... © 


MASTER OF COPY-PASTE 


p > A - 
s ` 
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Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


Etape 2 : Créer un Dataset 


Pour ce premier code, nous n’'allons pas importer de données 
personnelles. Plutôt, nous allons générer un tableau de données (x, y) 
aléatoires. 


Pour cela, la fonction make regression est très utile. La fonction prend 
comme arguments (c'est le mot pour désigner inputs) le nombre 
d'échantillons à générer, le nombre de variables et le bruit puis nous 
retourne deux vecteurs x et y. 


Pour maitriser l’aléatoire, on écrit la ligne np.random.seed(0). 


Finalement, pour visualiser nos données on utilise la fonction 
plt.scatter(x, y). 


np.random.seed(@) 
xX, y = make regression(n samples=100, n features=1, noise=10) 
plt.scatter(x, y) 


Voici le résultat que vous devriez obtenir : 


100 


-50 


-100 


Etape 3 : Développer le modèle et l’entraîner 


Pour développer et entraîner un modèle, il a fallu beaucoup de maths 
dans le chapitre 2 : Entre la Fonction Coût, les dérivées, l'algorithme de 
Gradient Descent... 


Dans Sklearn, tout cela est déjà fait pour vous ! 
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Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


Il vous suffit de définir une variable model depuis le générateur 
SGDRegressor en entrant le nombre d'itérations que le Gradient Descent 
doit effectuer ainsi que le Learning Rate. 


Une fois le modèle défini, il vous faut l’entraîner. Pour cela, il suffit 
d'utiliser la fonction fit. 


Par exemple, entraînons notre modèle sur 100 itérations avec un 
Learning rate de 0.0001 : 


model = SGDRegressor(max_iter=100, eta0=-0.0001) 
model.fit(x,y) 


Nous pouvons maintenant observez la précision de notre modèle en 
utilisant la fonction score qui calcule le coefficient de détermination 
entre le modèle et les valeurs y de notre Dataset. 


On peut aussi utiliser notre modèle pour faire de nouvelles prédictions 
avec la fonction predict et tracer ces résultats avec la fonction 


plt.plot : 


print('Coeff R2 =', model.score(x, y)) 
plt.scatter(x, y) 
plt.plot(x, model.predict(x), c='red', lw = 3) 


Coeff R2 = 0.22313211770520344 


100 


-50 


-100 
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Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


Wow ! Notre modèle semble vraiment mauvais. C'est parce que nous ne 
l'avons pas entraîné suffisamment longtemps et parce que le Learning 
rate était trop faible. Aucun problème, il est possible de le ré-entraîner 
avec de meilleurs hyper-paramètres. 


En Machine Learning, les valeurs qui fonctionnent bien pour la plupart 
des entraînements sont : 


e Nombre d'itérations = 1000 
e Learning rate = 0.001 


In [23]: model = SGDRegressor (max iter=1000, eta0=0.001) 
model.fit(x,y) 

Out [23]: SGDRegressor(alpha=0.0001, average=False, early stopping=False, epsilon=0.1, 
eta0=0.001, fit intercept=True, 11 ratio=0.15, 
learning rate='invscaling', loss='squared loss', max _iter=1000, 
n_iter=None, n iter no change=5, penalty="'12'", power t=0.25, 
random state=None, shuffle=True, tol=None, validation fraction=0.1, 
verbose=0, warm start-False) 


In [24]: | print ('Coeff R2 =', model.score(x, y)) 
plt.scatter(x, y) 
plt.plot(x, model.predict (x), c='red', lw = 3) 


Coeff R2 = 0.9417290436914625 


Out [24]: [<matplotlib.lines.Line2D at 0xlalllffcb70>] 


100 | 


50 + 


-100 


Fantastico ! Vous avez entraîné votre premier modèle de Machine 
Learning, et il fonctionne vraiment bien avec un coefficient R? = 94%. Vous 
pourriez maintenant vous en servir pour faire de bonnes prédictions ! Par 
exemple pour prédire le prix d'un appartement selon sa surface habitable, 
ou bien pour prédire l'évolution de la température sur Terre. 


Mais peut-être n'êtes-vous pas très satisfait... On peut aussi faire ce genre 
de chose dans Excel, pourquoi se compliquer la vie ? 
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Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


Certes, mais les choses vont commencer à devenir plus excitantes dans les 
prochaines pages quand nous allons développer des modèles à partir de 
centaines de variables (ici nous n'en avions qu'une : x) 


Mais auparavant, je vais vous montrer comment votre machine a appris 
les paramètres du modèle avec le Gradient Descent. Pour cela, il existe ce 
qu'on appelle les courbes d'apprentissage. 


Les courbes d'apprentissage 


En Machine Learning, on appelle courbe d'apprentissage (Learning 
curves) les courbes qui montrent l'évolution de la Fonction Coût au fil 
des itérations de Gradient Descent. Si votre modèle apprend, alors sa 
Fonction Coût doit diminuer avec le temps, comme ci-dessous : 


l: fig,ax = plt.subplots(figsize=(12,8)) 


ax.set_ylabel('"J(Theta)') 
ax.set _xlabel('Iterations') 
_=ax-.plot (range(iterations),cost history) 


0 2 4 6 8 
Iterations 


A chaque itération, le modèle s'améliore pour donner la droite ci-dessous. 


In [20]: fig,ax = plt.subplots (figsize=(12,8)) 
_=ax.plot (x, y, 'b.') 
for i in range (iterations): 
_=ax.plot(x, model(X, theta_history[i]), lw=1) 


250 
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Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


Si vous souhaitez reproduire ces courbes, je vous ai mis à la fin de ce 
livre le code que vous pourrez copier/coller (en bonus je vous donne la 
version longue du code de Gradient Descent telle que nous l'avons vu 
dans le chapitre 2). 


Régression Polynômiale à plusieurs variables 


Si vous achetez un stylo à 1€, combien vous coûteront 100 stylos ? 
100 € ? Faux! 


Nous vivons dans un monde régit par des lois souvent non-linéaires et 
où une infinité de facteurs peuvent influencer nos résultats. 


Par exemple, si vous achetez 100 stylos, vous aurez peut-être une 
réduction à 90 €. Si en revanche il y a une pénurie de stylos, ce même 
stylo qui coûtait 1 € pourrait valoir 1.50 € 


C'est là qu'Excel ne pourra plus rien pour vous et que le Machine Learning 
trouve son utilité dans le monde réel. 


Problème non-linéaire : Un problème plus compliqué ? 


Pour le nuage de point ci-dessous, il semblerait judicieux de développer 
un modèle polynômial de degré 2. 


f(x) = ax? + bx+c 


pan 4 noh - Pii : pelanme L dead 2 
fæ = met Cr + C 


Ce modèle, plus complexe que le modèle linéaire précédent, va 
engendrer des calculs algébriques plus intenses, notamment le calcul des 
dérivées … ou pas! 


43 
Tous droits réservés © 2019 Guillaume Saint-Cirgue 


machinelearnia.com 


Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


En fait, le code que nous avons écrit pour la régression linéaire peut être 
utilisé pour des problèmes bien plus complexes. Il suffit de générer des 
variables polynômiales dans notre Dataset en utilisant la fonction 
PolynomialFeatures présente dans Sklearn. 


from sklearn.preprocessing import PolynomialFeatures 


Grâce au calcul matriciel (présent dans Numpy et Sklearn) la machine 
peut intégrer ces nouvelles variables polynômiales sans changer son 
calcul ! 


Dans l'exemple ci-dessous, j'ai choisi d'ajouter une variable polynômiale 
de degré 2 pour forcer la machine à développer un modèle qui épousera 
l'allure parabolique de y en fonction de x. 


np.random.seed(@) 


# création du Dataset 
x, y = make regression(n_ samples=100, n features=1, noise=10) 
y = y**2 # y ne varie plus linéairement selon x ! 


# On ajoute des variables polynômiales dans notre dataset 
poly features = PolynomialFeatures(degree=2, include bias=False) 
x = poly features.fit transform(x) 


plt.scatter(x[:,0], y) 
x.shape # la dimension de x: 100 lignes et 2 colonnes 
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# On entraine le modele comme avant ! rien ne change ! 
model = SGDRegressor(max_iter=1000, eta0=-0.001) 
model.fit(x,y) 

print('Coeff R2 =", model.score(x, y)) 


plt.scatter(x[:,0], y, marker='o") 
plt.scatter(x[:,0], model.predict(x), c='red', marker='+") 
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Coeff R2 = 0.8940617695872648 


<matplotlib.collections.PathCollection at 0x2110370£470> 


Avec la fonction PolynomialFeatures on peut ainsi développer des 
modèles bien plus complexes capable de prédire des résultats sur des 
milliers de dimensions (un exemple ci-dessous) 


è Data + 
+ Predictions 


? 
+ e 
E. 
N e 
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Chapitre 3 : Adieu Excel, bonjour Python. Vous voilà Data Scientist ! 


Résumé de ce Chapitre 


Pour faire vos premiers pas dans le Machine Learning, vous avez installé 
Anaconda Python qui comprend tous les outils et librairies nécessaires 
(Jupyter, Numpy, Sklearn etc). 


Avec Sklearn, il suffit d'écrire quelques lignes pour développer des 
modèles de Régression Linéaire et Polynômiale. Vous devez vous souvenir 
des fonctions suivantes 


e model = SGDRegressor( nb_itérations, learning_rate) 
e model.fit(x, y) : pour entrainer votre modèle. 

e model.score(x, y) : pour évaluer votre modèle. 

e model.predict(x) : pour générer des prédictions. 


Je n'ai pas parlé de la fonction de Sklearn.linear model.LinearRegression 
car cette méthode n'intègre pas l'algorithme de Gradient Descent. Elle 
repose en fait sur les Equations Normales, et fonctionne très bien, 
mais s'adapte mal aux gros Datasets (quand il y a plusieurs centaines de 
features). Nous utiliserons cependant cette méthode dans le Chapitre 7. 
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Chapitre 4 : Régression 
Logistique et 
Algorithmes de 
Classification 


Dans l'apprentissage supervisé, il y a deux type de problèmes : 


e Les régressions 
e Les classifications 


Dans ce chapitre, vous allez découvrir le modèle de Régression 
Logistique, qui permet de résoudre des problèmes de classification 
binaires. 


Je vais aussi vous présenter un des algorithmes les plus populaires et 
simple : Le K-Nearest Neighbour. 


Chapitre 4 : Régression Logistique et Algorithmes de Classification 


Les problèmes de Classification 


Jusqu'à présent, nous avons appris comment résoudre des problèmes de 
régression. Au cours du chapitre 1, j'ai parlé des problèmes de 
classification, qui consistent par exemple à classer un email en tant que 
‘spam’ ou ‘non spam’. 


Dans ce genre de problème, on aura un Dataset contenant une variable 
target y pouvant prendre 2 valeurs seulement, par exemple 0 ou 1 


e siy = 0, alors l'email n'est pas un spam 
e siy = 1, alors l'email est un spam 


On dit également que l'on a 2 classes, c'est une classification binaire. 


Pour ces problèmes, on ajoute au modèle une frontière de décision qui 
permet de classer un email dans la classe 0 ou la classe 1. 


Le on L'ère A Décision 


si f& o.s abe 4=° 


Si fes os alats go 
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Chapitre 4 : Régression Logistique et Algorithmes de Classification 


Le modèle de Régression logistique 


Pour les problèmes de classification binaire, un modèle linéaire F = X.6, 
comme je l'ai tracé sur la figure précédente, ne convient pas. Voyez 
plutôt le résultat que l'on obtient avec un tel modèle pour le Dataset 
suivant : 


( xX X XX XX 


Mauro e Ronne 


L A Srontière 


On développe alors une nouvelle fonction pour les problèmes de 
classification binaire, c'est la fonction logistique (aussi appelé fonction 
sigmoïde ou tout simplement sigma ø). Cette fonction a la particularité 
d'être toujours comprise en 0 et 1. 


Pour coller la fonction logistique sur un Dataset (X, y) on y fait passer le 
produit matriciel X.8 ce qui nous donne le modèle de Logistic 
Regression : 


1 


HO = LE a78 
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Chapitre 4 : Régression Logistique et Algorithmes de Classification 


A partir de cette fonction, il est possible de définir une frontière de 
décision. Typiquement, on définit un seuil à 0.5 comme ceci : 
(= 0 si o(X. 08) < 0.5 
y = 1 sio(X.0) > 0.5 


— PACA 
HooTtiere 
cle Déciion 


Fonction Coût associée à la Régression Logistique 


Pour la régression linéaire, la Fonction Coût (8) = XX. — Y)? donnait 


une courbe convexe (qui présente un unique minima). C'est ce qui fait 
que l'algorithme de Gradient Descent fonctionne. 


En revanche, utiliser cette fonction pour le modèle Logistique ne donnera 
pas de courbe convexe (dû à la non-linéarité) et l'algorithme de Gradient 
Descent se bloquera au premier minima rencontré, sans trouver le 
minimum global. 


3(e) 


buries o 
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Chapitre 4 : Régression Logistique et Algorithmes de Classification 


Il faut donc développer une nouvelle Fonction Coût spécialement pour la 
régression logistique. On utilise alors la fonction logarithme pour 
transformer la fonction sigma en fonction convexe en séparant les cas 
où y = 1 des cas où y = 0. 


Fonction Coût dans les cas où y = 1 

Voici la Fonction Coût que l’on utilise dans les cas où y = 1: 
J(6) = — log (o(X.6)) 

Explications : 


Si notre modèle prédit o(x) = 0 alors que y = 1, on doit pénaliser la 
machine par une grande erreur (un grand coût). La fonction logarithme 
permet de tracer cette courbe avec une propriété convexe, ce qui 
poussera le Gradient Descent à trouver les paramètres 0 pour un coût 
qui tend vers 0. 


Dons À, UE 
S 


Şe- Jos (sigma) 


5 p > T i 
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Chapitre 4 : Régression Logistique et Algorithmes de Classification 


Fonction Coût dans les cas où y = 0 


Cette fois la Fonction Coût devient : 


J(8) = — log (1 — o(X.8)) 


Explications : 


Si notre modèle prédit o(x) = 1 alors que y = 0, on doit pénaliser la 
machine par une grande erreur (un grand coût). Cette fois — log (1 — 0) 
donne la même courbe, inversée sur l'axe vertical. 


RP EE ges 


5e - foa (1+ sigen) 


J 


> g 
o 4 r 
Fonction Coût complète 


Pour écrire la Fonction Coût en une seule équation, on utilise l'astuce de 
séparer les cas y = 0ety = 1 avec une annulation : 


J(6) = a. X yx log( (X.6)) + (1 — y) x log(1— a(X.8)) 


Dans le cas où y = 0, il nous reste : 


J(6) = z > 1 x log(1 — o(X.8)) 


Et dans le cas où y = 1 


J(6) = = X 1x log(o(x.6)) 
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Chapitre 4 : Régression Logistique et Algorithmes de Classification 


Gradient Descent pour la Régression Logistique 


L'algorithme de Gradient Descent s'applique exactement de la même 
manière que pour la régression linéaire. En plus, la dérivée de la 
Fonction Coût est la même aussi ! On a : 


Gradient: 210 E >X O(X. 0) — y).X 
, ð JO) 
00 


Gradient Descent: 0 = 0 — q&a 


Résumé de la Régression Logistique 


Modèle: o(X.0) = 14e X5 


Fonction Coût: J (0) = = > y x log( o(X.6)) + (1 — y) x log(1 — a(X.6)) 


2J(@) 1 
= — AT. (a(X.0) y) 


Gradient: 


9 J(0) 


Gradient Descent:0 = 0 — a x 36 


Développer un programme de classification 
binaire dans Jupyter 


On est reparti dans Jupyter ! Comme pour le chapitre 3, nous allons 
générer des données aléatoires, mais cette fois-ci avec la fonction 
make _classification. Commençons par importer nos modules habituels : 


import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.datasets import make_ classification 
from sklearn.linear model import SGDClassifier 


# Génération de données aléatoires: 100 exemples, 2 classes, 2 features x@ et x1 

np.random.seed(1) 

X, y = make classification(n_ samples=100,n features=2, n redundant=0, n_informative=1, 
n_clusters per _class=1) 


# Visualisation des données 

plt.figure(num=None, figsize=(8, 6)) 

plt.scatter(x[:,0], x[:, 1], marker = ‘o', c=y, edgecolors='k") 
plt.xlabel('xe') 

plt.ylabel('x1') 

x. shape 
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Ensuite, nous devons créer un modèle en utilisant SGDClassifier. 


# Génération d'un modele en utilisant la fonction cout ‘log' pour Logistic Regression 
model = SGDClassifier(max_ iter=1000, eta0=0.001, loss='log') 


model.fit(X, y) 
print('score:', model.score(x, y)) 


Une fois le modèle entraîné, on peut afficher sa frontière de décision avec 
le code suivant...un peu compliqué je vous l'accorde, mais un simple 
copier/coller fera l'affaire, pas vrai ? © 


# Visualisation des données 

h = .02 

colors = "bry" 

x_min, x_ max = X[:, @].min() - 1, X[:, @].max() + 1 

y_min, y_ max = X[:, 1].min() - 1, X[:, 1].max() + 1 

XX, yy = np.meshgrid(np.arange(x min, x max, h), 
np.arange(y min, y_ max, h)) 


Z = model.predict(np.c_[xx.ravel(), yy.ravel()]) 
Z = Z.reshape(xx.shape) 
cs = plt.contourf(xx, yy, Z, cmap=plt.cm.Paired) 
plt.axis('tight') 
for i, color in zip(model.classes , colors): 

idx = np.where(y == i) 


plt.scatter(X[idx, ©], X[idx, 1], c=color, cmap=plt.cm.Paired, edgecolor='black', s 
=20) 
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-3 -2 -1 0 1 2 3 


Vous pouvez désormais réutiliser ce code sur vos propres données pour 
ainsi prédire si un email est un spam ou encore si une tumeur est maligne 
ou non. 


Bon. Nous avons vu jusqu'à présent des algorithmes bourrés de maths et 
donc pas forcément fun à étudier... mais ça va changer tout de suite ! 


L'Algorithme de Nearest Neighbour 
Je vais désormais vous montrer l'algorithme qui est probablement le plus 


simple à comprendre de tous ! 


L'algorithme de Nearest Neighbour (le voisin le plus proche) permet de 
résoudre des problèmes de classification à plusieurs classes de façon 
simple et très efficace. 
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Chapitre 4 : Régression Logistique et Algorithmes de Classification 


Promenade en Montage 


Vous partez vous promener en montagne avec un ami. Avant de partir, il 
fait 30 °C et votre ami vous dit qu'il a chaud. Arrivé en montagne, il fait 
désormais 10 °C et votre ami vous dit qu'il a froid. 


En redescendant la vallée, il fait maintenant 15 °C, pensez-vous que 
votre ami aura froid ou bien chaud ? 


15 °C étant plus proche de 10 °C (froid) que de 30 °C (chaud), il semble 
légitime de prédire que votre ami aura froid. 


Froidou Chaud ? 
15°C 


e C: 
10°C 1 30°C 


Voilà l'essentiel de ce qu'il y à savoir sur l'algorithme Nearest 
Neighbour. Quand vous devez faire une nouvelle prédiction, trouvez 
dans votre Dataset l'exemple le plus proche par rapport aux conditions 
dans lesquelles vous êtes. 


Eh ! Qui a dit que le Machine Learning était difficile ? 
Note : 


Cet exemple vous montre au passage que la variété et la quantité de 
données dans votre Dataset est primordiale ! Si vous ne disposez que de 
2 points : -20 °C = froid ; 20 °C = chaud, alors vous pourriez conclure 
que 1 °C est une température chaude... Pas sûr que ça plaise à tout le 
monde ! On en reparlera dans le Chapitre 7. 
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Chapitre 4 : Régression Logistique et Algorithmes de Classification 


K-Nearest Neighbour (K-NN) 


La distance la plus courte 


Regardez le nuage de points qui suit. Quel est le l'exemple le plus proche 
du point vert ? C'est un exemple de la classe rouge. L'algorithme de 
Nearest Neighbour calcule ainsi la distance entre le point vert et les 
autres points du Dataset et associe le point vert à la classe dont l'exemple 
est le plus proche en terme de distance. 


ns > 


Typiquement, on utilise la distance euclidienne (c'est la droite direct 
entre deux points) mais d'autres métriques sont parfois plus utiles, 
comme la distance de Manhattan ou bien la distance cosinus. 


Inutile de rentrer dans les détails mathématiques, vous savez désormais 
que Sklearn implémente toutes les équations pour vous. 


Le nombre de voisin K 


Pour limiter les problèmes liés au bruit (ce qu'on appelle Over fitting, et 
que nous verrons dans le chapitre 7) on peut demander à l'algorithme de 
trouver les K voisins les plus proches du point vert. 


Cela améliore la qualité du modèle car il devient moins sensible aux 
impuretés et cas particuliers qui viendraient empêcher la bonne 
généralisation (Chapitre 7). 
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Chapitre 4 : Régression Logistique et Algorithmes de Classification 


Vision par ordinateur avec K-NN dans Jupyter 


Cette fois ci, je vous propose de développer un programme capable de 
reconnaitre un chiffre entre 0 et 9 écrit à la main. Fini les données 
générées aléatoirement ! Voici les chiffres que la machine saura 
reconnaitre dans quelques minutes. 


00000602/00602000 
EUANT//T/IA\TINZ/I 
2d214d277242112322 
3333333333333333 
a a e o a e A a A e E a S e 
-E a a 5 5 
bPCGELCRRLbC CC 6EGG CG L 
777117717191? F777 7 
LEEBE IF FE PT ESS ET 3 
2219949979419494 4919 


Vous pouvez charger ces données depuis Sklearn (la librairie contient des 
Datasets de base). 


Commençons par importer les libraires habituelles : 


import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.datasets import load_digits 

from sklearn.neighbors import KNeighborsClassifier 


Le code ci-dessous montre un exemple de chiffre présent dans le Dataset, 
c'est un exemple du chiffre 0. 


On apprend aussi que le Dataset comprend 1797 exemples, c'est-à-dire 
1797 images, et que chaque exemple contient 64 features. 


Que sont ces 64 features ? il s'agit de la valeur de chacun des 64 pixels 
qui forment les images. 


Quand on soumet un nouveau chiffre à la machine, l'algorithme de K-NN 
trouve l'exemple du Dataset qui ressemble le plus à notre chiffre, basé 
sur le voisin le plus proche pour la valeur de chaque pixel. 
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# importons une base de données de chiffre 
digits = load digits() 


X 
y 


digits .data 
digits.target 


print('dimension de X:', X.shape) 


dimension de X: (1797, 64) 


<matplotlib.image.AxesImage at 0xla34df0fa90> 


L'étape suivante consiste à entraîner le modèle de Nearest Neighbour. En 
exécutant le code vous-même, vous devriez obtenir un score de 99%, ce 
qui signifie que votre modèle reconnaitra le bon chiffre 99% du temps. 
Perso, je trouve ça impressionnant. Aujourd'hui, vous pourrez clairement 
dire que vous savez faire du Machine Learning ! 


# visualisons un de ces chiffres 
plt.imshow(digits['images'][@], cmap = ‘Greys r') 


# Entraînement du modele 
model = KNeïighborsClassifier() 
model.fit(X, y) 

model.score(X, y) 


Pour finir en beauté, testons une image au hasard et voyons si la machine 
arrive à identifier de quel chiffre il s'agit. En l'occurrence, j'ai choisi de 
tester la 100"€ image de notre Dataset, qui est un 4... et la machine a su 


la reconnaître ! 
#Test du modele 
test = digits['images'][190].reshape(1, -1) 
plt.imshow(digits['images'][1080], cmap = ‘Greys r') 
model.predict(test) 
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array([4]) 


0 2 4 6 


Bravo pour avoir su développer votre premier vrai programme de vision 
par ordinateur ! 


Bilan de ce chapitre 


Dans ce chapitre, vous avez appris 2 algorithmes très populaires pour les 
problèmes de Classification : 


La Régression Logistique avec Gradient Descent 
Le K-Nearest Neighbour. 


La fonction Logistique est une fonction importante dans l'histoire du 
Machine Learning. C'est elle que l'on trouve au cœur des neurones des 
fameux Réseaux de Neurones, dont nous allons parler dans le prochain 
chapitre. 
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Chapitre 5 : Réseaux de 
Neurones 


Dans ce dernier chapitre sur l'apprentissage supervisé, nous allons 
démystifier les fameux Réseaux de Neurones. Ces modèles qui font le 
buzz aujourd'hui sont utilisés pour la reconnaissance vocale, la vision par 


ordinateur et autres applications complexes. 


Vous allez apprendre : 


e Ce qu'est le Deep Learning 
e Ce qui compose un Réseau de Neurones dans les détails 
e Comment programmer votre premier Réseau de Neurones 


Chapitre 5 : Réseaux de Neurones 


Introduction aux Réseaux de Neurones 


Ah ! Il est temps de sortir l'artillerie lourde avec les Réseaux de 
Neurones (Neural Network) qui font aujourd'hui le succès du Deep 


Learning. 


Les Réseaux de Neurones sont des modèles bien plus complexes que 
tous les autres modèles de Machine Learning dans le sens où ils 
représentent des fonctions mathématiques avec des millions de 
coefficients (les paramètres). Rappelez-vous, pour la régression linéaire 
nous n'avions que 2 coefficients a et b... 


Avec une telle puissance, il est possible d'entraîner la machine sur des 
tâches bien plus avancées : 


La reconnaissance d'objets et reconnaissance faciale 
L'analyse de sentiments 

L'analyse du langage naturel 

La création artistique 

Etc. 


Cependant, développer une fonction aussi complexe à un coût. Pour y 
parvenir, il faut souvent fournir : 


Un Dataset beaucoup plus grand (des millions de 
données) 

Un temps d'apprentissage plus long (parfois plusieurs 
jours) 

Une plus grande puissance de calcul. 
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Pour dépasser ces challenges, les chercheurs dans le domaine ont 
développés des variantes du Gradient Descent ainsi que d’autres 
techniques pour calculer plus rapidement les dérivées sur des millions de 
données. Parmi ces solutions on trouve : 


e Mini-Batch Gradient Descent : Technique pour laquelle 
le Dataset est fragmenté en petits lots pour simplifier le 
calcul du gradient à chaque itération. 

e Batch Normalization: Mettre à la même échelle toutes 
les variables d'entrée et de sortie internes au Réseau de 
Neurone pour éviter d’avoir des calculs de gradients 
extrêmes. 

e Distributed Deep Learning : Utilisation du Cloud pour 
diviser le travail et le confier à plusieurs machines. 


Sans plus tarder, voyons l'anatomie d'un Réseau de Neurones pour 
démystifier ce concept. 


Comprendre les Réseaux de Neurones 


Voilà à quoi ressemble un Réseau de Neurones : 


b hidden layer 1 hidden layer 2 hidden layer 3 
input layer 
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Vous remarquez un niveau d'entrées (input layer) à gauche, un niveau de 
sorties (output layer) à droite, et plusieurs niveaux cachés entre deux. 


Les petits ronds sont appelés les neurones et représentent des 
fonctions d'activation. Pour un réseau de neurone basique, la fonction 
Logistique est utilisée comme fonction d'activation. C'est pour cela que 
nous l'avons vue dans le chapitre 4. 


Commençons par analyser ce qui se passe dans 1 neurone. 
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Réseau de Neurone à 1 Neurone : Le perceptron 


Le réseau de Neurones le plus simple qui existe porte le nom de 
perceptron. Il est identique à la Régression Logistique du chapitre 4. 


Les entrées du neurone sont les features x multipliées par des 
paramètres 0 à apprendre. Le calcul effectué par le neurone peut être 
divisé en deux étapes : 


1. Le neurone calcule la somme z de toutes les entrées z = 
> xð. C'est un calcul linéaire 

2. Le neurone passe z dans sa fonction d'activation. Ici la 
fonction sigmoïde (fonction Logistique). C'est un calcul 
non-linéaire. 


>2 


Note : 


On utilise souvent d’autres fonctions d'activation que la fonction 
sigmoide pour simplifier le calcul du gradient et ainsi obtenir des cycles 
d'apprentissage plus rapides : 


e La fonction tangente hyperbolique tanh (z) 
e La fonction Relu(z) 


Réseaux à plusieurs neurones : le Deep Learning 


Pour créer un Réseaux de Neurones, il suffit de développer plusieurs de 
ces perceptrons et de les connecter les uns aux autres d'une façon 
particulière : 
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e On réunit les neurones en colonne (on dit qu'on les réunit 
en couche, en /ayer). Au sein de leur colonne, les 
neurones ne sont pas connectés entre eux. 

e On connecte toutes les sorties des neurones d'une colonne 
à gauche aux entrées de tous les neurones de la colonne 
de droite qui suit. 


On peut ainsi construire un réseau avec autant de couches et de neurones 
que l’on veut. Plus il y a de couches, plus on dit que le réseau est 
profond (deep) et plus le modèle devient riche, mais aussi difficile à 
entraîner. C'est ça, le Deep Learning. 


Voici un exemple d'un réseau à 5 neurones (et 3 /ayers). Tous les layers 
entre la couche d'entrée et la couche de sortie sont dits cachés car nous 
n'avons pas accès à leur entrées/sorties, qui sont utilisées par les layers 
suivants. 


Input hidden Output 
layer layer layer 
o L LT Le 
(5) 
`Q 
5 Sortie 
X PO 
& < a, 
LO 


Dans les détails, un réseau plus simple (à 3 neurones) nous donnerait la 
sortie a; = o(01aı + 02a2) où 6, et 8, sont les coefficients liés aux 
connections entre neurones a, > a; et a, > az. Ce sont les paramètres 
de notre modèle. 


Dans le réseau suivant, on a donc 6 paramètres (que je différencie par les 
couleurs, la réelle annotation des paramètres étant plus complexe). 


65 
Tous droits réservés © 2019 Guillaume Saint-Cirgue 


machinelearnia.com 


Chapitre 5 : Réseaux de Neurones 


C'est comme le cerveau humain ? 


On a longtemps fait le rapprochement entre le cerveau humain et les 
Neural Network pour démontrer la puissance de ces algorithmes. Voici 
l'analogie qui est encore aujourd'hui présentée aux novices : 


La fonction d'activation produit une sortie si les entrées qu'elle reçoit 
dépassent un certain seuil, à la manière qu'un neurone biologique produit 
un signal électrique en fonction des stimulus qu'il reçoit aux Dendrites 
(ce sont les entrées du neurone). 


Dans un Neurone, ce signal circule jusqu'aux différents terminaux de 
l'axone pour être transmis à d'autres neurones, tout comme la fonction 
activation envoie sa sortie aux neurones du niveau suivant. 


Dendrites 


Axon terminals 


En réalité, les Réseaux de Neurones n'ont rien à voir avec le cerveau 
humain. Désolé... 
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Un Réseau de Neurone n'est en fait qu'une énorme composée de milliers 
de fonctions mathématiques, et aujourd'hui les neuroscientifiques ont 
démontré que le fonctionnement du cerveau dépasse de loin l'architecture 
« simpliste » des réseaux de neurones. 


Pourquoi utilise-t-on alors l'expression de Réseau de Neurone ? 
Sûürement parce que l'analogie avec les neurones facilite la 
compréhension de ce type de modèle, mais également parce que 
l'utilisation de ce Buzz word a permis de solliciter l'intérêt des 
journalistes et des entreprises dans les années 2010. Une histoire de 
marketing... 


L'entrainement d'un Réseau de Neurone 


Rappelez-vous : Pour résoudre un problème de Supervised Learning, il 
vous faut les 4 éléments suivants. 


1. Un Dataset 

2. Un Modèle et ses paramètres 

3. Une Fonction Coût et son gradient 

4. Un Algorithme de minimisation (Gradient Descent) 


e Pour le Dataset, pas de problème, il suffit de disposer d'un tableau 
(X, y) comme pour les autres problèmes. Les features (x4, X2, X3, ...) sont 
distribuées à l'entrée du réseau (dans le premier layer) 


e Pour programmer le Modèle, il faut emboîter les fonctions des 
différent niveaux d'activation les unes dans les autres comme je l'ai 
montré plus haut pour l'exemple des 3 neurones. C'est ce qu'on 
appelle Forward Propagation (faire le chemin des entrée X vers la 
sortie y). 


e Pour exprimer la Fonction Coût et son gradient, c'est 
mathématiquement délicat. Il faut calculer la contribution de chaque 
neurone dans l'erreur finale. Tout ce que vous avez à savoir, c'est que 
cela est possible avec une technique appelée Back Propagation (faire 
le chemin dans le sens inverse : y vers X). 


e Enfin, pour minimiser la Fonction Coût, il suffit d'utiliser Gradient 
Descent en utilisant les gradients calculés avec Back Propagation. Le 
Gradient Descent en lui-même n'est pas différent de celui que nous 
avons vu dans le chapitre 2 (bonne nouvelle). 
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Programmer votre premier Réseau de Neurones 
pour identifier des espèces d'Iris. 


Normalement, on développe des Réseaux de Neurones avec un 
Framework comme Tensorflow, mais l'apprentissage de cet outil 
dépasse un peu le cadre de ce livre. Cependant, je veux bien me faire 
violence en vous montrant comment faire avec Sklearn ©. Pour cela, il 
faudra importer MLEClassifier (qui signifie : Multi-Layer Perceptron 
Classifier). 


Cette fois, je vous propose de développer un programme capable de 
reconnaitre une espèce parmi plusieurs de la famille des Iris. L'algorithme 
utilise 4 features pour effectuer son calcul : 


e xı: La longueur du pétale 
e x: La largeur du pétale 
e x: La longueur du sépale 
e x,: La largeur du sépale 


import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.datasets import load_iris 

from sklearn.neural_ network import MLPClassifier 


# charger les données 
iris = load _ iris() 


X 
y 


iris.data 
iris.target 


X.shape # notre Dataset comprend 150 exemples et 4 variables 


# Visualisation des donées 
colormap=np.array(['Red','green','blue']) 
plt.scatter(X[:,3], X[:,1], c = colormap[y]) 


Pour développer un réseau à 3 hidden layers et 10 neurones dans chaque 
layer, j'utilise le code suivant : hidden_layer_sizes=(10, 10, 10) 


# Création du modele 

model = MLPClassifier(hidden layer sizes=(10, 19, 10), max_iter=1000) 
model.fit(X, y) 

model.score(X, y) 
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Normalement, vous devriez obtenir un score de 98% pour votre Neural 
Network. Cela signifie que la machine arrive à prédire la bonne espèce de 
fleur 98% du temps. 


Résumé de l'apprentissage supervisé 


C'est avec les Réseaux de Neurones que s'achève ces 4 chapitres sur 
l'apprentissage supervisé, qui est la technique la plus utilisée en 
Machine Learning et en Deep Learning. Rappelez-vous qu'il existe 2 
familles de problèmes dans l'apprentissage supervisé : 


e Les Régressions 
e Les Classifications 


Pour résoudre ces problèmes, ne perdez jamais de vue les 4 étapes 
essentielles pour développer votre modèle : 


1. Dataset 

2. Modèle 

3. Fonction Coût 

4. Algorithme de minimisation 


Avec Sklearn, vous pouvez développer des modèles de Machine Learning 
simplement en utilisant les fonctions que nous avons vues et qui intègrent 
directement les étapes 3 et 4. Il ne vous reste alors qu'à : 


1. Importer un Dataset 
2. Choisir un modèle parmi ceux proposés par sklearn : 
o SGDRegressor () 
o KNeighborsClassifier() 
o MLPClassifier() 
o Etc... 
3. Utiliser la fonction model.fit pour effectuer l'apprentissage 


Il existe beaucoup d'algorithmes de Régression et de Classification, je n'ai 
pas parlé de Support Vector Machine ou bien de Random Forest, mais 
vous pouvez trouver plus d'information à ce sujet sur machinelearnia.com 


Dans le prochaine chapitre, vous allez découvrir une nouvelle technique 
d'apprentissage, dont la méthodologie est bien différente de celle que 
nous avons vue jusqu'à présent : L'apprentissage non-supervisé. 
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Chapitre 6 : 
Apprentissage Non- 
Supervisé 


Dans ce chapitre, vous allez découvrir la deuxième technique 
d'apprentissage utilisée en Machine Learning : L'apprentissage non- 
supervisé. 


Vous allez apprendre l'algorithme le plus populaire dans cette technique : 
le K-Mean Clustering, qui permet de segmenter des données clients 

dans le monde du marketing, ou bien de faciliter la recherche scientifique 
en associant ensemble des molécules/matériaux/phénomènes semblables. 


Chapitre 6 : Apprentissage Non-Supervisé 


Unsupervised Learning 


Le problème de l'Apprentissage Supervisé 


D'un certain point de vue, l'apprentissage supervisé consiste à enseigner 
à la machine des choses que nous connaissons déjà, étant donné que 
nous construisons à l'avance un Dataset qui contient des questions X et 
des réponses y. 


Que faire alors si vous disposez d'un Dataset sans valeur y ? Que faire si 
vous voulez que la machine vous aide à compléter vos connaissances en 
apprenant certaines choses que vous ignorez ? 


Rappelez-vous, dans le Chapitre 1, nous avons parlé d'apprendre la 
langue chinoise à partir d'un livre de traduction (x, y). Que faire alors si je 
vous retire le bouquin et que je vous envoie vivre seul en Chine ? 
Arriverez-vous à apprendre le chinois tout seul ? Il y a forcément un 
moyen d'y parvenir, c'est ce qu'on appelle l'apprentissage non-supervisé 
(Unsupervised Learning). 
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Comment apprendre sans exemple de ce qu'il faut 
apprendre ? 


Regardez ces 6 photos. Pouvez-vous les regrouper en 2 familles selon leur 
ressemblance ? 


Bien sûr ! C'est même plutôt simple. Nul besoin de savoir s'il s'agit de 
cellules animales, de bactéries ou de protéines pour apprendre à classer 
ces images. Votre cerveau a en fait reconnu des structures communes 
dans les données que vous lui avez montrées. 


GROUPE A GROUPE B 


Dans l'apprentissage non-supervisé, on dispose ainsi d'un Dataset (x) 
sans valeur (y), et la machine apprend à reconnaitre des structures 
dans les données (x) qu'on lui montre. 


On peut ainsi regrouper des donnés dans des clusters (c'est le 
Clustering), détecter des anomalies, ou encore réduire la dimension 
de données très riches en compilant les dimensions ensembles. 
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Algorithme de K-Mean Clustering 


Le K-Mean Clustering est sans doute l'algorithme le plus populaire pour 
les problèmes de Clustering (regrouper des données selon leur structure 
commune). Il est souvent utilisé en marketing pour cibler des groupes de 
clients semblables pour certaines campagnes publicitaires. 


L'algorithme fonctionne en 2 étapes répétées en boucle. On commence 
par placer au hasard un nombre K de centres dans notre nuage de 
points. Dans l'exemple ci-dessous, K=2. Ensuite : 


L'étape 1 consiste à rallier chaque exemple au centre le plus 
proche. Après cette étape, nous avons K Clusters (ici 2 clusters) 
L'étape 2 consiste à déplacer les centres au milieu de leur Cluster. 
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On répète ainsi les étapes 1 et 2 en boucle jusqu'à ce que les centres ne 
bougent plus. 
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Rcsuht LL 


Programmer un K-Mean Clustering 


La librairie Sklearn nous permet aussi de faire du Unsupervised Learning ! 
La fonction make blobs permet de simuler des clusters dans un Dataset. 


import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.datasets.samples generator import make blobs 
from sklearn.cluster import KMeans 


Pour cet exemple, nous allons créer un Dataset de 100 exemples à 2 
features, en simulant 3 clusters. 


# Générer des données: 

X, y = make blobs(n_ samples=100, centers = 3, cluster std=0.5, random state=@) #nb feat 
ures = 2 par défaut 

plt.scatter(X[:,01, X[:, 1]) 
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Dans le code ci-dessous, on entraîne un modèle de K-Mean Clustering à 3 
centres (K=3). J'ai aussi affiché les résultats que l’on obtient avec K = 2 
et K = 4. 

# Entrainer le modele de K-mean Clustering 


model = KMeans(n_ clusters=3) 
model.fit(X) 
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#Visualiser les Clusters 
predictions = model.predict(X) 
plt.scatter(X[:,0], X[:,1], c=predictions) 
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La prochaine fois que vous avez à disposition un tableau de données sur 
vos clients, sur les caractéristiques d'un produit, ou sur des documents 
que vous devez classer, pensez à utiliser le K-Mean Clustering pour laisser 
la machine proposer sa méthode de classement. 


Pour finir, prenons le Dataset des fleurs d'Iris que vous avez su classer 
grâce à un réseau de neurones dans le chapitre 5 et voyons les clusters 
produits par l'algorithme de K-Mean Clustering. 


15:1 . PURES 15 4 5 i e 
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Neural Network K-Mean Clustering 


Les résultats sont très ressemblants, preuve qu'il est possible de faire de 
bonnes classifications même avec des Datasets (x) sans valeur (y) en 
utilisant l'apprentissage non-supervisé. 
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Conclusion sur le Unsupervised Learning 


Dans l'apprentissage supervisé, la machine reçoit un Dataset où les 
exemples (x) sont étiquetés d'une valeur (y) (on appelle ça un Labelled 
Dataset). Il est alors possible de trouver une relation générale qui relie (x) 
à (y). 

Dans l'apprentissage non-supervisé, nous ne pouvons pas faire cela, 
parce qu'il manque la variable (y) à notre Dataset. Il est donc Unlabelled. 


Apprentissage Supervisé Apprentissage Non-Supervisé 
Labelled Dataset (x, y) Unlabelled Dataset (x) 
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Mais cela ne nous empêche pas de pouvoir segmenter le Dataset en 
différents Clusters grâce au K-Mean Clustering, ou bien de détecter des 
anomalies en calculant des densités de probabilités (dont nous n'avons 
pas parlé). Avec d'autres algorithmes (le Principal Component Analysis) 
on peut aussi réduire efficacement les dimensions d'un Dataset. 


Avec ces méthodes, il est possible de segmenter un marché, de 
développer des systèmes de détection de fraude bancaire, ou d'aider la 
recherche scientifique. 


Maintenant que vous connaissez les principaux outils du Machine 
Learning, il est temps d'apprendre comment se servir de ces outils pour 
résoudre de vrais problèmes. C'est l'objet du chapitre final de ce livre ! 
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Chapitre 7 : Comment 
gérer un projet de 
Machine Learning 


Votre voyage arrive à sa fin. Au cours de ce livre, vous avez appris des 
algorithmes puissants et réellement utilisés dans l'industrie pour 
construire des modèles à partir de données. Mais un algorithme seul ne 
résout aucun problème. Il est temps d'apprendre comment utiliser vos 
connaissances pour résoudre des problèmes. Dans ce chapitre, vous 
allez apprendre : 


e Comment préparer votre Dataset 

e Comment lutter contre Le phénomène d’Over fitting 

e Comment diagnostiquer un modèle de Machine Learning 
avec le Train set et Test Set 

e Le cycle de développement d'un modèle de Machine 
Learning 


Chapitre 7 : Comment gérer un projet de Machine Learning 


L'erreur que font la majorité des Novices 


Beaucoup de gens travaillent longtemps leur maitrise des algorithmes au 
détriment de leur compétence à résoudre des problèmes. 


Pour mener à bien un projet de Machine Learning, il ne suffit pas de 
connaitre des algorithmes (comme ceux que nous avons appris dans ce 
livre) mais il faut également savoir comment se servir de ces algorithmes, 
ce que peu de gens savent bien faire ! 


C'est ce que vous allez apprendre dans ce dernier chapitre, qui est l’un 
des chapitres les plus importants de ce livre. 


Un exemple de scénario typique 


Votre patron souhaite automatiser la logistique de son usine. Il vous 
confie un Dataset et vous demande de développer un modèle de Machine 
Learning pouvant identifier différents fruits (pommes, poires, etc.) pour 
que la machine puisse les ranger automatiquement dans la bonne boîte. 


Vous entraînez un modèle complexe (par exemple un réseau de neurones 
avec beaucoup de /ayers) suffisamment longtemps pour minimiser la 
Fonction Coût et vous obtenez une précision de 99%. Bien joué ! 


Vous livrez ce modèle à votre patron, mais quelques jours plus tard il 
revient très mécontent : votre modèle n'est pas aussi bon que vous le 
prétendez, il a une précision de 70%. 


Que s'est-il passé ? 


Je vais vous dévoiler les causes plausibles et les erreurs à ne pas 
commettre pour éviter ce genre de situation, puis les solutions à ces 
challenges. Nous allons parler des 2 problèmes les plus courants en 
Machine Learning : 


Une mauvaise préparation du Dataset 
Le problème d'Over fitting 
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Le plus important, ce n'est pas l'algorithme, ce 
sont les Données 


“It's not who has the best algorithm that wins. It's who hasthe | 
most data.” 


Andrew Ng 


Une étude menée en 2001 par Michelle Banko et Eric Brill montre que la 
performance d'un programme de Machine Learning dépend avant tout de 
la quantité de données que comporte votre Dataset. Cela explique en 
partie l'obsession qu'on les géants du Web (les GAFAM) à récolter des 
quantités colossales de données. 


L'étude révèle aussi que beaucoup d'algorithmes de Machine Learning 
sont similaires en terme de performance. 


Conséquence : Si vous avez plus de données que votre concurrent, vous 
êtes vainqueur, même si votre concurrent à un meilleur algorithme ! 


Mais avoir beaucoup de données ne suffit pas, il faut aussi avoir de 
bonnes données et comprendre ces données. C'est ce point qui fait 
défaut à de nombreux Data Scientists. Pourtant, l'étape de préparation 
des données (Data pre-processing) représente le plus grand temps passé 
sur un projet de Machine Learning, voyons pourquoi. 


Data pre-processing: Comment préparer votre Dataset 


Lorsque vous recevez un Dataset, il est impératif de procéder à quelques 
retouches avant de commencer à faire du Machine Learning. Voici une 
liste des actions à compléter pour bien préparer son Dataset : 


e Il est fréquent qu'un Dataset contienne quelques anomalies, voire 
des erreurs, qu'il faut supprimer pour ne pas biaiser 
l'apprentissage de la machine (vous ne voudriez pas que la machine 
apprenne quelque chose de faux). 


e Il est aussi important de normaliser vos données, c'est-à-dire les 
mettre sur une même échelle pour rendre l'apprentissage de la 
machine plus rapide et aussi plus efficace. 
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e Si vous avez des valeurs manquantes, il faut être capable de leur 
assigner une valeur défaut. 


e Si vous avez des features catégoriales (exemple : homme/femme) 
il faut les convertir en données numériques (homme=0, femmez=1). 


e Egalement, il est très important de nettoyer le Dataset des features 
redondantes (qui ont une forte corrélation) pour faciliter 
l'apprentissage de la machine. 


e Finalement, un point qui peut faire toute la différence est la création 
de nouvelles features, ce qu'on appelle feature engineering. 
Exemple : Prenez un Dataset immobilier qui contient les features : 

o x. = longueur jardin 

o x, = largeur jardin 
Alors il est possible de créer x; = x, x x, qui équivaut à la surface du 
jardin. 


Typiquement, sklearn et pandas disposent des fonctions nécessaires 
pour faire un bon data pre-processing. Pour charger un fichier Excel au 
format csv dans Jupyter, utiliser la librairie pandas. 


import pandas as pd 


Dataset = pd.read_csv('dataset.csv') 
print(Dataset.head()) # afficher le Dataset 


Attention ! Le tableau que vous cherchez à importer doit convenir à un 
certain format. Pour vos débuts, assurez-vous d’avoir un fichier Excel qui 
ne contient que vos données (pas de notes ni commentaires) et qui 
commence dès la colonne A ligne 1 : 


Appartement Région Paris 


1 
2 
3 
A B c D E F G È 
1 [prix surface qualite annee jardin garage distance parc S 
5 x sui ite ee rdin distance parc 
2| 313000 124 3 15 0 oui 150 V = i PRE HS garage b 
- 6 313000 124] 3 15 ofoui 150 
3 | 2384000 339 5 25 70 oui 1300 
7 2384000] 339| 5 2.5 70|oui 1300| 
4| 342000 179 3 2 0 oui 30 a ARO 3 : asa = 
- 186) 3 = 30joui 2e 9 420000 186| 3 2.25 30[oui 2175 
6 | 550000 180 4 2.5 25 oui 400 = 
10| 550000| 180| 4 25 25[oui 400 
7 | 490000 82 2 1 10 non 380 A F o a A F == 
8 | 335000 125 2 2 0 non 160 5 ana aeu 
9| 482000 252 4 25 0 oui 210 5 rs | me A T 
10| 452500 26) 3 25 32 oui 230 S = ai a = = ou = 
11| 640000 mo 4 2 0 non 25 = FARE A a kang = 
12| 463000 159 3 175 0 oui 60 nn non 
13| 1400000 271 4 25 80 oui 80 LE nn 1m, 3 1 Snön 2% 
M 588500 FARE 5 dei za 20 1200000] 270| 5 2.75 So[oui 145 
D 365000 nil à i aan Aa 21 242500] mj 3 15 5]non 1450| 
16| 1200000 270 5 2.75 50 oui 145 a 
3 


17| 242500 111 15 5 non 1450 23 Penser a appeller Michel pour le dernier appartement !!! 
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Chapitre 7 : Comment gérer un projet de Machine Learning 


Vous pouvez ensuite utiliser certaines fonctions pour nettoyer votre 
Dataset, convertir les catégories en valeurs numériques, et charger 
votre Dataset dans une matrice X et Un vecteur y pour commencer le 
Machine Learning ! 


ataset.fillna(value=99999) # assigner une valeur défaut 


Dataset = 
= pd.get_dummies(Dataset) # remplacer les catégories 


D 
Dataset p 


y 
X 


Dataset['prix'].values # Créer le vecteur target y 
Dataset.drop(['prix'], axis=1).values # Créer la matrice features X 


L'expertise est cruciale 


Jouer ainsi avec les données peut s'avérer dangereux si le Data Scientist 
n'a pas de connaissances techniques sur l'application finale : finance, 
médecine, ingénierie, climatologie, etc. 


Exemple : En donnant le Dataset suivant à un modèle de Machine 
Learning, vous obtiendrez une frontière de décision qui indique qu'il fait 
chaud quand la température est supérieure à 5 °C... 


Le O a 
lesa X froid 
E x z 
X 
O 
Xx 


ai haget Ce 


SC 
Golat 
da DES" 


Dans cette application aussi simple, vous avez une certaine expertise qui 
vous permet de rejeter la réponse de la machine, et vous comprenez que 
le Dataset a besoin d'être complété avec des données supplémentaires. 


Etes-vous certain d'avoir ce niveau d'expertise en médecine pour 
développer un modèle qui pourrait décider de la vie d’un patient ? 


Conclusion : vous serez un meilleur Data Scientist en travaillant sur les 
projets qui se rattachent à Vos compétences techniques. 
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Chapitre 7 : Comment gérer un projet de Machine Learning 


Les données doivent toujours venir de la même 
distribution 


Une dernière erreur que je veux partager avec vous et qui peut causer 
une chute de performance assez importante est l’utilisation d'un modèle 
de machine Learning sur des données provenant d'une autre 
distribution que les données sur lesquelles la machine a été entraînée. 


Par exemple, si vous développez un modèle pour reconnaitre des poires 
en donnant à la machine des photos Haute Définition de poires bien 
droites et sans taches, mais que la machine utilise ensuite une mauvaise 
caméra qui déforme les couleurs et qui voit les poires toutes empilées les 
unes sur les autres, le modèle ne pourra pas reconnaitre les features qu'il 
a appris durant l'entrainement avec la même précision. 


Ce que vous aviez donné à Ce que la machine voit 
apprendre après l'apprentissage 
Conclusion 


Il est important de bien préparer son Dataset, en supprimant les 
défauts qu'il contient, en s'assurant qu'il représente des données 
provenant de la même distribution que pour l'application finale, et en 
comprenant en profondeur le sens des données dont on dispose. 


Le travail de préparation des données prend en général 80% du temps 
de travail d'un Data Scientist, mais s'il est bien fait, alors vous n'avez 
plus aucun problème par la suite. 


Plus aucun problème... sauf un : L'Over fitting. J'ai voulu garder ce 
point-là pour le sprint final du livre ! Vous êtes prêts ? 
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Chapitre 7 : Comment gérer un projet de Machine Learning 


Over fitting et Régularisation 


Dans les chapitres d'apprentissage supervisé, nous avons développé des 
modèles en cherchant à minimiser les erreurs avec le Dataset. J'ai 
même affirmé (page 15) qu'un bon modèle nous donne de petites 
erreurs. En fait, ce n'est pas si simple... 


Que pensez-vous des deux modèles ci-dessous ? 


Dataset (x, y) Modèle A Modèle B 


J2 0 J=0 


Le modèle B ne donne aucune erreur par rapport au Dataset, donc 
d'après ce que nous avons vu, il devrait être parfait ! 


Pourtant, le modèle A semble plus convaincant, alors que celui-ci donne 
une Fonction Coût plus élevée. 


Le modèle B souffre ici d'un problème appelé Over fitting, qui est un 
phénomène très courant en Machine Learning et qu'il vous faut 
absolument éviter. 


Over fitting : A vouloir aller trop loin, on va TROP loin. 


On parle d'Over fitting pour dire que le modèle s'est trop spécialisé sur 
les données qui lui ont été fournies et a perdu tout sens de 
généralisation. 


Un Over fitting survient le plus souvent quand un modèle trop complexe 
(avec trop de paramètres ou trop de features) a été entraîné. Dans ce 
cas, le modèle a certes un faible coût /(8), mais il a aussi ce qu'on appelle 
une grande variance. Conséquence : un modèle moins performant que 
prévu quand on le soumet à de nouvelles données et une machine qui 
confond les pommes et les poires. 
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Chapitre 7 : Comment gérer un projet de Machine Learning 


Modèle A Modèle B 


£ 


Sur le Dataset B était meilleur que A. 
Mais sur de nouvelles données, A est meilleur que B 


On pourrait alors se dire qu'il suffit de développer des modèles moins 
complexes avec moins de features. Et Pouf ! Plus de problème de 
variance ! 


C'est vrai, Mais on risque alors d’avoir un modèle erroné qui manque de 
précision. On appelle ça Under fitting, et on dit que le modèle a un 
grand biais. 


Ce problème touche à la fois les régressions et les classifications : 


Under Fitting 
Grand Biais 


Over Fitting 


Le por modele Grande Variance 


Regressions 


Classification 


Comment trouver alors le juste milieu entre biais et variance ? C'est une 
des grandes questions à laquelle sont confrontés les Data Scientists. 
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Chapitre 7 : Comment gérer un projet de Machine Learning 


Il existe une méthode qui permet de garder toutes les features d'un 
modèle tout en régulant l'amplitude des paramètres 8. Cette méthode 
porte justement le nom de Régularisation. 


La Régularisation 


La régularisation permet de limiter la variance d’un modèle sans sacrifier 
son biais. Pour cela, différentes techniques existent: 


1. On peut légèrement pénaliser la Fonction Coût du modèle en 
ajoutant un terme de pénalité sur ses paramètres. Pour la 
régression linéaire, la Fonction Coût devient alors : 


1 
J(0) = D > FX) —Y})2+ D 0? (Ridge ou L2 Régularisation) 


Le facteur de régularisation À correspond au niveau de pénalité : s'il 
est trop grand, on risque /'Under fitting, et s'il est trop faible, c'est 
l'Over fitting. On peut le contrôler directement dans Sklearn. 


2. Pour le K-Nearest Neighbour, on peut augmenter la valeur de K 
(nombre de voisins). Le modèle ne tient alors pas compte des 
anomalies noyées dans la masse. 

3. Pour les Réseaux de Neurones, une technique nommée Dropout 
pénalise le modèle en désactivant aléatoirement certains neurones 
à chaque cycle de Gradient Descent. Le Réseau perd alors 
légèrement de ses facultés et est moins sensible aux détails. 


Voici ce que la Régression linéaire classique vous donnera en développant 
un modèle polynômial de degré 10 sur le Dataset suivant : 


Coeff R2 = 1.0 


[<matplotlib.lines.Line2D at 0x2300c670efð>] 
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Chapitre 7 : Comment gérer un projet de Machine Learning 


import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.preprocessing import PolynomialFeatures 
from sklearn.linear model import LinearRegression 


# Creation d'un Dataset x, y 

np.random.seed(@) 

x = np.linspace(@, 5, 10) 

y = x -2%* (x ** 2) + 0.5 * (x ** 3) + np.random.normal(-2, 2, 10) 
plt.scatter(x, y) 


x[:, np.newaxis] 
PolynomialFeatures(degree=19, include bias=False).fit_transform(X) 
shape 


Creation de plusieurs features pour notre modele 


# 
X 
X 
X. 


# Entraînement du modele. Ici on utilise les Equations Normales (LinearRegression) 
# Les Equations normales reposent sur la méthode des moindres carrées, c’est plus 
# rapide que le Gradient Descent. 

model = LinearRegression() 

model.fit(X,y) 

print('Coeff R2 =", model.score(X, y)) 

plt.scatter(x, y, marker='o") 

plt.plot(x, model.predict(X), c='red') 


Dans Sklearn, vous pouvez développer un modèle avec régularisation 
grâce au modèle Ridge : Sklearn.linear model.Ridge. Le modèle a 
certes un coefficient R? plus faible, mais il produit une meilleure 
généralisation et fera donc moins d'erreurs sur les données futures. 


from sklearn.linear model import Ridge 


ridge = Ridge(alpha=@0.1) # alpha est le facteur de régularisation. 
ridge.fit(X,y) 
print('Coeff R2 =", ridge.score(X, y)) 


plt.scatter(x, y, marker='o") 
plt.plot(x, ridge.predict(X), c = ‘green') 


Coeff R2 = 9.9132413559476188 


[<matplotlib.lines.Line2D at 0x2300c89c0fð>] 
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Vous savez maintenant que la performance réelle d'un modèle de 
Machine Learning ne repose pas simplement sur sa Fonction Coût : vous 
risquez /’Over fitting chaque fois qu'un modèle se spécialise trop sur les 
données qu'on lui donne à étudier. 


Mais comment être sûr de la performance que votre modèle aura sur des 
données futures, c'est-à-dire des données sur lesquelles il n'aura pas 
été entraîné ? 


La réponse est dans la question ! Il faut entraîner votre modèle sur une 
partie seulement du Dataset et utiliser la seconde partie pour évaluer la 
vraie performance de notre modèle. On appelle cela le Train set et le Test 
set. 


Diagnostiquer un modèle de Machine Learning 


Train set et Test set 


La bonne manière de mesurer la performance de votre modèle de 
Machine Learning est de tester celui-ci sur des données qui n'ont pas 
servi à l'entraînement. On divise ainsi le Dataset aléatoirement en deux 
parties avec un rapport 80/20 : 


e Train set (80%), qui permet à la machine d'entraîner un 
modèle. 

e Test set (20%), qui permet d'évaluer la performance du 
modèle. 


Dataset 


Train Set 
Test Set 
d y x1 x2 x3 
€ 313,000.00 124| 3 15 
e 550,000.00 180] 4 25 
de 365,000.00 101] 3 1 
€ 242,500.00 TE 15 
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Chapitre 7 : Comment gérer un projet de Machine Learning 


Pour créer un Train set et Test set à partir de notre Dataset, on utilise la 


fonction train_test_ split de Sklearn : 


import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.datasets import make _ regression 

from sklearn.preprocessing import PolynomialFeatures 
from sklearn.model selection import train _test_split 


# Creation d'un Dataset Aleatoire 
np.random.seed(@) 


x, y = make regression(n samples=100, n features=1, noise=10) 


y = np.abs(y) + y + np.random.normal(-5, 5, 100) 
plt.scatter(x, y) 


# Creation des Train set et Test set a partir du Dataset 
x_train, x_ test, y _ train, y_ test = train test split(x, y, test_size=0.2) 


# Visualisation des Train set et Test set 


plt.scatter(x_traïin, y_ train, c='blue', label='Train set‘) 


plt.scatter(x_ test, y test, c='red', label='Test set') 
plt.legend() 


© train set 
è vest set 
150 4 
Kod 
b 
100 4 i 
+ 
e. * 
"a 
50 L pi . 
os ~ 
-A 
0] è . ze e s 
se > Pa * 
. 


On peut ensuite entraîner notre modèle sur le Train Set: (Xtrain, Ytrain)r PUIS 


l'évaluer sur le Test Set: (Xtest, Ytest) : 
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Dans le code ci-dessous je décide de mettre en pratique tout ce que nous 
avons vu : Je crée plusieurs features polynômiales (degré 10) et j'utilise 
la régularisation de Ridge pour éviter /'Over fitting. On obtient un score de 
92% pour l'entraînement et un score de 91% pour l'évaluation sur des 


données nouvelles. 


X = PolynomialFeatures(degree = 19, include bias=False).fit_transform(x) 
x_train, x_ test, y _ train, y_ test = train test split(X, y, test_size=0.2) 
from sklearn.linear model import Ridge 


model = Ridge(alpha = 0.1, random state=0@) 
model.fit(x train, y_train) 


print('Coefficient R2 sur Train set:', model.score(x train, y _train)) 
print('Coefficient R2 sur Test set:', model.score(x_ test, y_test)) 


plt.figure(figsize=(8,6)) 

plt.scatter(x, y, c='blue') 

a = np.linspace(-2, 2, 100).reshape((100, 1)) 

A = PolynomialFeatures(degree = 10, include bias=False).fit_transform(a) 
plt.plot(a, model.predict(A), c = ‘green', lw=2) 


Coefficient R2 sur Train set: @.9235739839329926 
Coefficient R2 sur Test set: 0@.9142326950179189 


[<matplotlib.lines.Line2D at @x230151d3080>] 
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Repérer un problème d'Under fitting ou d'Over fitting 


La technique la plus efficace pour repérer si votre modèle a un problème 
de biais (Under fitting) ou de variance (Over fitting) consiste à analyser 
les erreurs (la Fonction Coût) sur le Train set J (0) main et le Test set 
J(O)sest : 


e Siles erreurs sont grandes sur le Train set et le Test 
Set, alors le modèle a un grand biais, et il faut développer 
un modèle plus complexe ou développer plus de features. 

e Si les erreurs sont faibles sur le Train set, mais sont 
grandes sur le Test set, alors le modèle a une grande 
variance. 


Biais Variance 
Stek zh 
Sid 


Nombre de paramètres 


Que faire en cas d’Over fitting ou Under fitting ? 


Dans le cas où votre modèle a un grand biais (Under fitting) vous 
pouvez : 


e Créer un modèle plus complexe, avec plus de paramètres. 

e Créer plus de features à partir des features existantes. 

e Entraîner votre modèle plus longtemps. 

e Diminuer le Learning Rate du Gradient Descent (si le 
Learning Rate est trop grand, la Fonction Coût ne converge 
pas) 

e Récolter plus de features dans les données (parfois une 
feature importante n'a pas été récoltée) 
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A l'inverse, si votre modèle a une grande variance (Over fitting) vous 
pouvez : 


e Utiliser la régularisation 

e Utiliser un modèle avec moins de paramètres ou un 
Dataset avec moins de features 

e Collecter plus de données (avoir un Dataset plus grand 
permet de développer un modèle qui généralise mieux) 


Cycle de développement du Machine Learning 


Développer un modèle de Machine Learning ne se fait pas du premier 
coup. On commence souvent avec une première idée de modèle simple 
et rapide à développer, puis on analyse si on a une variance ou un biais 
et on tente une nouvelle idée pour corriger les problèmes rencontrés, 
etc. 


Le diagramme de la page suivante résume le cycle de développement du 
Machine Learning avec toutes les étapes que vous avez apprises, et 
marque la fin de ce chapitre final. 


Notre voyage s'achève ici, mais j'espère que vous continuerez à tracer 
votre chemin dans le Machine Learning après avoir lu ce livre, et me 
soutenir sur machinelearnia.com et YouTube est le meilleur moyen de me 
remercier pour ce livre gratuit. 


N'omettez pas de lire la conclusion du livre, je garde pour vous un petit 
bonus ! 
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Résumé des étapes de développement en Machine 
Learning 


Diviser 
Train Set 
Validation Set 


Importer un Pre-process le 
Dataset (x, y) Dataset 


Entrainer un 
modèle 
(Train Set) 


Evaluer le Modèle 
(Validation Set) 


Over fitting 
(grande variance) 


Collecter plus de 
données 


Modèle 
Moins complexe 


Régularisation 


Ko) 
N 
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CONCLUSION 


Bravo ! Vous avez lu ce livre en entier, ce qui vous distingue de la 
majorité des gens qui commencent un livre sans jamais le finir. Le simple 
fait de l'avoir terminé doit vous conforter dans l’idée que vous avez les 
capacités de devenir un excellent Data Scientist ! 


Le Monde, et tout particulièrement la France, manque cruellement de 
Data Scientists ! Il y a énormément de places à prendre sur.le marché 
du travail, mais d'ici 5 ans cela aura certainement changé. 


Agissez donc MAINTENANT. Utilisez les techniques que vous avez 
apprises pour des tâches au travail et continuer d'apprendre grâce à mon 
site Internet : machinelearnia.com. Pour finir, je vous livre quelques 
conseils et un formulaire de Machine Learning. 


Du fond du cœur, MERCI. 
Guillaume Saint-Cirgue 


Lexique : Formule Résumé du Machine Learning 


Lexique : Formule Résumé du Machine 
Learning 


Différences entre Data Science, Machine Learning et 
Deep Learning 
L'Intelligence Artificielle est l'ensemble des techniques et théories qui 


cherchent à développer des modèles capables de simuler le 
comportement humain. 


Parmi ces techniques, on trouve le Machine 
Learning, très populaire depuis 2010. Le Deep 
Learning est un domaine du Machine Learning qui 


RE est focalisé sur le développement des réseaux de 


neurones et qui fait face à d'autres défis que ceux 
du machine Learning. Parmi ces défis, comment 
entrainer des modèles avec des millions de 
paramètres et des milliards de données dans des 
temps raisonnables. 


On dit souvent que ce sont des disciplines de Data Science parce qu'elles 
utilisent des données pour construire les modèles. Mais en Data Science, 
on analyse plus souvent des données pour en créer un modèle en réaction 
à ces données, alors qu'en Machine Learning on créé un programme qui 
acquiert une aptitude : conduire une voiture, voir des objets, etc. 


Dataset : 


Tableau de données (X, y) qui contient 2 types de variables : 


Target y 
Features X 


On note m le nombre d'exemples que contient le tableau (le nombre de 
lignes) et n le nombre de features (le nombre de colonnes X). 


Ainsi : 
X est une matrice à m lignes et n colonnes. X e R"** 
y est un vecteur à m lignes. y € R” 


Pour désigner la feature j de l'exemple i on écrit x? 
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Modèle : 


Fonction mathématique qui associe X à y, telle que f(X) = y. Un bon 
modèle doit être une bonne généralisation, c'est-à-dire qu'il doit fournir 
de petites erreurs entre f(x) et y sans être sujet à /'Over fitting. 


On note 8 le vecteur qui contient les paramètres de notre modèle. Pour 
une régression linéaire, la formulation matricielle de notre modèle 
devient : F(X) = X.0 


Fonction Coût : 


La Fonction Coût /(8) mesure l'ensemble des erreurs entre le modèle et le 
Dataset. De nombreux métriques d'évaluations peuvent être utilisés 
pour la Fonction Coût : 


Mean Absolute Error (MAE) 

Mean Squared Error (MSE) : Utilisée dans le Chapitre 3 
Root Mean Squared Error (RMSE) 

Accuracy : pour les classifications 

Precision 

Recall 

F1 score. 


~. 9]J( 
Gradient de la Fonction Coût o 


Gradient Descent : 


Algorithme de minimisation de la Fonction Coût. Il existe beaucoup de 
variante de cet algorithme : 


Mini Batch Gradient Descent 
Stochastic Gradient Descent 
Momentum 

RMSProp 

Adam 
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Variance : 


C'est l'erreur due à un modèle trop sensible aux détails et incapable de 
généraliser, ce qui donne lieu à un Over fitting. 


d 


Biais : 


C'est l'erreur due à un modèle erroné qui manque de précision et donne 
lieu à un Under fitting. 


Résumé de la Régression Linéaire 


Dataset: (X, y) avec X,y € R” 


Modèle: F(X) = X.0 


Fonction Coût: J (0) = E X Ew -y )’ 


, aJ) 1 z 
Gradient: TR — XT.(F(X) — y) 

: a J(0) 
Gradient Descent: 0 = 0 — a x FTI 
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Résumé de la Régression Logistique 


Modèle: o(X.0) = 14e ¥5 


Fonction Coût: J (0) = = > y x log( o(X.6)) + (1 — y) x log(1 — a(X.6)) 


2J(@) 1 
= = XT.(a(x.6) y) 


Gradient: 


9 J(0) 


Gradient Descent:0 = 0 — ax E 


Code pour visualiser les courbes d'apprentissage sur 
une régression linéaire (Chapitre 3) 


Copier/coller le code suivant dans Jupyter ou bien Spyder pour visualiser 
les courbes d'apprentissage. 


Importer les libraires : 


import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.datasets import make_regression 


Générer un Dataset aléatoire 


np.random.seed(4) 
n 
m 


100 


Xx, y = make regression(n samples=m, n features=n, noise=10) 
y = y + 100 

plt.scatter(x, y) 

y = y.reshape(y.shape[@], 1) 


#ajouter le Bias a X 


X = np.hstack((np.ones(x.shape), x)) 
X. shape 


Définir sous forme matricielle le modèle, la Fonction Coût et le gradient. 
On définit 0 le vecteur qui contient les paramètres a et b. 


F= X.0 
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1 
J@)= >) &0-y) 


1 
Grad(0) = mG (X.0 — y) 


#definir la fonction modele 
def model(X, theta): 
# x shape: (m, n) 
# theta shape: (n,1) 
return X.dot(theta) #shape: (m, 1) 


#definir la fonction cout 
def cost_function(X, y, theta): 


m = len(y) 
J = 1/(2*m) * np.sum((model(X, theta) - y)**2) 
return J 


#definit la fonction gradient 
def gradient(X, y, theta): 
return 1/m * X.T.dot((X.dot(theta) - y)) 


On définit la fonction Gradient Descent avec une boucle for 
For all itérations 


0 =0-—«x Grad(6) 


#algorithme de Gradient Descent 

def gradient_descent(X, y, theta, learning rate =0.001, iterations = 1000): 
m = len(y) 
cost_history = np.zeros(iterations) 
theta_ history = np.zeros((iterations, 2)) 


for i in range(@, iterations): 
prediction = model(X, theta) 
theta = theta - learning rate * gradient(X, y, theta) 
cost_history[i] = cost_function(X, y, theta) 
theta_history[i,:] = theta.T 


return theta, cost_history, theta_history 


On passe à l'entraînement du modèle, puis on visualise les résultats. 
# utilisation de l'algorithme 


np.random.seed(@) 
theta = np.random.randn(2, 1) 


iterations = 10 

learning_ rate = 0.3 

theta, cost_history, theta history = gradient _descent(X, y, theta, learning rate=learni 
ng_rate, iterations = iterations) 


#visualisation des courbes d'apprentissage 
fig,ax = plt.subplots(figsize=(12,8)) 
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ax.set_ylabel('J(Theta)') 
ax.set_xlabel('Iterations') 
_=ax.plot(range(iterations),cost_history) 


# visualisation du modele au cours de son apprentissage 
fig,ax = plt.subplots(figsize=(12,8)) 
_=ax.plot(x, y, ‘b.') 
for i in range(iterations): 
_=ax.plot(x, model(X, theta_history[i]), lw=1) 


J \ 


Autres Algorithmes de Machine Learning: 


Pour votre culture, voici d'autres algorithme de Machine Learning très 
populaires. Vous pouvez les apprendre en détail sur machinelearnia.com. 


Support Vector Machine : Consiste à trouver la frontière de 
décision linéaire qui éloigne le plus les classes l’unes de l'autres. Il 
est facile de créer des modèles aux dimensions infinies avec cette 
méthode. 


Decision Tree : Consiste à ordonner une série de tests dans un 
arbre pour arriver à une conclusion. 


Random Forest : Un ensemble de Decision Tree construits 
aléatoirement (avec Bootstrap) qui chacun émet sa solution au 
problème. La solution majoritairement choisie par la forêt l'emporte. 


Naive Bayes : Repose sur l'inférence de Bayes (probabilités 
conditionnelles) 


Anomaly Detection Systems : Algorithme de Unsupervised 
Learning qui consiste à détecter des anomalies grâce aux densités 
de probabilités. 


Principal Component Analysis : Technique de réduction de 
dimension qui consiste à réduire le nombre de variables de votre 
Dataset en créant des variables non-corrélées. 
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Mes 3 conseils perso pour le Machine Learning 


Conseil #1 : Notez toujours les dimensions de votre problème 


100% des Data Scientists ont déjà fait cette erreur : ne pas noter sur 
une feuille de papier les dimensions des matrices du problème. 


A un moment ou un autre, vous aurez un bug parce que vous tentez de 
multiplier deux matrices A et B aux dimensions incompatibles. Il est alors 
très utile de vérifier les dimensions des matrices du Dataset, Train set, 
Test set, et des paramètres en utilisant la fonction numpy.shape pour les 
comparer à vos calculs. 


In [448]: np.random.seed(@) 
X, y = make_regression(n_samples-100, n_features-2, noise-10) 
x.shape 


Out[448]: (100, 2) 


Conseil #2 : Loi de Pareto 


Vous connaissez la Loi de Pareto ? 80% des effets sont le produit de 
20% des causes. 


J'ai pu observer que ce principe s'applique très souvent en Machine 
Learning : 80% des erreurs de votre modèle sont produites par 20% des 
prédictions, ou bien 20% des points du Dataset, ou bien 20% des hyper- 
paramètres, etc. De la même manière, 80% de la performance de votre 
programme est atteinte après seulement 20% de travail. 


Faites alors le diagnostic de votre système en cherchant les points 80/20 
Si vous voulez vous améliorer de 80% en produisant seulement 20% 
d'efforts. Bonne chance ! 


Conseil #3 : Philosophez et ne soyez pas obsédés par la 
performance 


En Machine Learning, il est important de savoir prendre du recul. Selon 
l'application, une précision de 98% est aussi bien qu'une précision de 
98,1%. Pourtant, beaucoup de Data Scientists peuvent perdre des 
semaines à gagner ce petit 0,1%... pour pas grand-chose. Je vous invite 
à philosopher, à garder l'esprit ouvert et à passer plus de temps à 
chercher des solutions à d'autres problèmes. 


Bonne chance à vous ! 
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